kubeflow_test

Overview

Use kubeflow to quickly create distributed training environment on kubernetes cluster

outline

1.install docker set nvidia container runtime
2.install and set kubeadm
3.create k8s cluster(kubeadm init)
4.install kubeflow and kubeflow python SDK
5.create mlflow server on k8s cluster
6.execute

1.install docker set nvidia container runtime

docker install

for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done

sudo apt-get update
sudo apt-get install ca-certificates curl gnupg
sudo install -m 0755 -d /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
sudo chmod a+r /etc/apt/keyrings/docker.gpg

echo \
  "deb [arch="$(dpkg --print-architecture)" signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \
  "$(. /etc/os-release && echo "$VERSION_CODENAME")" stable" | \
  sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update

sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

#add user to group
sudo groupadd docker
sudo usermod -aG docker $USER
newgrp docker

nvidia docker install

curl https://get.docker.com | sh \
  && sudo systemctl --now enable docker

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
   && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt-get update
sudo apt-get install -y nvidia-docker2
sudo systemctl restart docker

2.install and set kubeadm

#IPv4 Internet config:
cat <<EOF | sudo tee /etc/modules-load.d/k8s.conf
overlay
br_netfilter
EOF

sudo modprobe overlay
sudo modprobe br_netfilter

cat <<EOF | sudo tee /etc/sysctl.d/k8s.conf
net.bridge.bridge-nf-call-iptables  = 1
net.bridge.bridge-nf-call-ip6tables = 1
net.ipv4.ip_forward                 = 1
EOF

sudo sysctl --system
sudo swapoff –a
sudo sed -i '/ swap / s/^\(.*\)$/#\1/g' /etc/fstab

#kubeadm 1.23
sudo apt-get update
sudo apt-get install -y apt-transport-https ca-certificates curl

sudo curl -fsSLo /etc/apt/keyrings/kubernetes-archive-keyring.gpg https://dl.k8s.io/apt/doc/apt-key.gpg

echo "deb [signed-by=/etc/apt/keyrings/kubernetes-archive-keyring.gpg] https://apt.kubernetes.io/ kubernetes-xenial main" | sudo tee /etc/apt/sources.list.d/kubernetes.list
sudo apt-get update

export VERSION =1.23.0-00
sudo apt-get install -y kubelet=$VERSION kubeadm=$VERSION kubectl=$VERSION
sudo apt-mark hold kubelet kubeadm kubectl

3.create k8s cluster(kubeadm init)

#in this example we use flannel network architecture
sudo kubeadm init --pod-network-cidr=10.244.0.0/16 --cri-socket="unix:///var/run/cri-dockerd.sock"

mkdir -p $HOME/.kube/config/
sudo cp /etc/kubernetes/admin.conf $HOME/.kube/config/
sudo chown $(id -u):$(id -g) $HOME/.kube/config/admin.conf

kubectl apply -f https://raw.githubusercontent.com/flannel-io/flannel/v0.20.2/Documentation/kube-flannel.yml

4.install kubeflow and kubeflow python SDK

#create NVIDIA device plugin for Kubernetes
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.1/nvidia-device-plugin.yml

kubectl apply -k "github.com/kubeflow/training-operator/manifests/overlays/standalone?ref=v1.5.0"
pip install -r requirements.txt

5.create mlflow server on k8s cluster

#create pv for mlflow server
#In this example, the mounting path used is /tmp/data; you can change it to the desired path.
kubectl create -f mlflow_pv.yaml
#create pvc for mlflow server
kubectl create -f mlflow_pvc.yaml
#create mlflow server
kubectl create -f mlflow.yaml

6.execute

python main.py

Name		Name	Last commit message	Last commit date
Latest commit History 63 Commits
k8s_yaml		k8s_yaml
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

kubeflow_test

Overview

outline

1.install docker set nvidia container runtime

docker install

nvidia docker install

2.install and set kubeadm

3.create k8s cluster(kubeadm init)

4.install kubeflow and kubeflow python SDK

5.create mlflow server on k8s cluster

6.execute

About

Releases

Packages

Languages

mean-world/kubeflow_test

Folders and files

Latest commit

History

Repository files navigation

kubeflow_test

Overview

outline

1.install docker set nvidia container runtime

docker install

nvidia docker install

2.install and set kubeadm

3.create k8s cluster(kubeadm init)

4.install kubeflow and kubeflow python SDK

5.create mlflow server on k8s cluster

6.execute

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages