[kubectl-plugin] Support specifying number of head GPUs and worker GPUs for Rayjob #2989

win5923 · 2025-02-09T08:06:15Z

Why are these changes needed?

As title

Manual Test

$ kubectl ray job submit --name ray-job-sample pip --working-dir ~/workdir --head-gpu 1 --worker-gpu 1 --runtime-env ~/workdir/runtimeEnv.yaml -- python sample_code.py

For worker pod:

For head pod:

Related issue number

Checks

I've made sure the tests are passing.
Testing Strategy
- Unit tests
- Manual tests
- This PR is not tested :(

win5923 · 2025-02-09T08:17:11Z

kubectl-plugin/pkg/util/generation/generation.go

-	// If the HeadGPU resource is set with a value, then proceed with parsing.
-	if rayClusterSpecObject.HeadGPU != "" {
-		headGPUResource := resource.MustParse(rayClusterSpecObject.HeadGPU)
-		if !headGPUResource.IsZero() {
-			var requests, limits corev1.ResourceList
-			requests = *rayClusterSpec.HeadGroupSpec.Template.Spec.Containers[0].Resources.Requests
-			limits = *rayClusterSpec.HeadGroupSpec.Template.Spec.Containers[0].Resources.Limits
-			requests[corev1.ResourceName(resourceNvidiaGPU)] = headGPUResource
-			limits[corev1.ResourceName(resourceNvidiaGPU)] = headGPUResource
-
-			rayClusterSpec.HeadGroupSpec.Template.Spec.Containers[0].Resources.Requests = &requests
-			rayClusterSpec.HeadGroupSpec.Template.Spec.Containers[0].Resources.Limits = &limits
-		}
+	headGPUResource := resource.MustParse(rayClusterSpecObject.HeadGPU)
+	if !headGPUResource.IsZero() {
+		var requests, limits corev1.ResourceList
+		requests = *rayClusterSpec.HeadGroupSpec.Template.Spec.Containers[0].Resources.Requests
+		limits = *rayClusterSpec.HeadGroupSpec.Template.Spec.Containers[0].Resources.Limits
+		requests[corev1.ResourceName(resourceNvidiaGPU)] = headGPUResource
+		limits[corev1.ResourceName(resourceNvidiaGPU)] = headGPUResource
+
+		rayClusterSpec.HeadGroupSpec.Template.Spec.Containers[0].Resources.Requests = &requests
+		rayClusterSpec.HeadGroupSpec.Template.Spec.Containers[0].Resources.Limits = &limits
 	}

-	// If the workerGPU resource is set with a value, then proceed with parsing.
-	if rayClusterSpecObject.WorkerGPU != "" {
-		workerGPUResource := resource.MustParse(rayClusterSpecObject.WorkerGPU)
-		if !workerGPUResource.IsZero() {
-			var requests, limits corev1.ResourceList
-			requests = *rayClusterSpec.WorkerGroupSpecs[0].Template.Spec.Containers[0].Resources.Requests
-			limits = *rayClusterSpec.WorkerGroupSpecs[0].Template.Spec.Containers[0].Resources.Limits
-			requests[corev1.ResourceName(resourceNvidiaGPU)] = workerGPUResource
-			limits[corev1.ResourceName(resourceNvidiaGPU)] = workerGPUResource
-
-			rayClusterSpec.WorkerGroupSpecs[0].Template.Spec.Containers[0].Resources.Requests = &requests
-			rayClusterSpec.WorkerGroupSpecs[0].Template.Spec.Containers[0].Resources.Limits = &limits
-		}


Previously, kubectl ray job submit did not support setting headGPU and workerGPU, which caused a panic. With this addition, the original implementation can now be restored.

…Us for Rayjob Signed-off-by: win5923 <[email protected]>

win5923 force-pushed the kubectl-job-gpu branch from 99f47be to c063a9a Compare February 9, 2025 08:14

win5923 commented Feb 9, 2025

View reviewed changes

win5923 force-pushed the kubectl-job-gpu branch from c063a9a to 811c3e5 Compare February 9, 2025 08:22

[kubectl-plugin] Support specifying number of head GPUs and worker GP…

8b82054

…Us for Rayjob Signed-off-by: win5923 <[email protected]>

win5923 force-pushed the kubectl-job-gpu branch from 811c3e5 to 8b82054 Compare February 9, 2025 08:25

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[kubectl-plugin] Support specifying number of head GPUs and worker GPUs for Rayjob #2989

[kubectl-plugin] Support specifying number of head GPUs and worker GPUs for Rayjob #2989

win5923 commented Feb 9, 2025

win5923 Feb 9, 2025

[kubectl-plugin] Support specifying number of head GPUs and worker GPUs for Rayjob #2989

Are you sure you want to change the base?

[kubectl-plugin] Support specifying number of head GPUs and worker GPUs for Rayjob #2989

Conversation

win5923 commented Feb 9, 2025

Why are these changes needed?

Manual Test

Related issue number

Checks

win5923 Feb 9, 2025

Choose a reason for hiding this comment