Nvidia settings API for container runtime #3994

monirul · 2024-05-28T17:20:08Z

Issue number:

Closes #

Description of changes:
This PR will expose two new APIs that will allow customer to configure value of accept-nvidia-visible-devices-as-volume-mounts and accept-nvidia-visible-devices-envvar-when-unprivileged for nvidia container runtime.

Bottlerocket Settings	Impact	Value	What it means?
`settings.kubernetes.nvidia.container-runtime.visible-devices-as-volume-mounts`	allows to change the `accept-nvidia-visible-devices-as-volume-mounts` value for k8s container-toolkit	`true` \| `false` default: `true`	Adjusting the `visible-devices-as-volume-mounts` settings will alters the method of GPU detection and integration within container environments. Setting this parameter to `true` enables the NVIDIA runtime to recognize GPU devices listed in the `NVIDIA_VISIBLE_DEVICES` environment variable and mount them as volumes, which permits applications within the container to interact with and leverage the GPUs as if they were local resources.
`settings.kubernetes.nvidia.container-runtime.visible-devices-envvar-when-unprivileged`	allows to set value of `accept-nvidia-visible-devices-envvar-when-unprivileged` settings of nvidia container runtime for k8s varient	`true` \| `false` default: `false`	When this setting is set to `false`, it prevents unprivileged containers from accessing all GPU devices on the host by default. If `NVIDIA_VISIBLE_DEVICES` is set to all within the container images and `visible-devices-envvar-when-unprivileged` is set to true, all GPUs on the host will be accessible to the containers, regardless of the limits set via nvidia.com/gpu. This could lead to situations where more GPUs are allocated to a pod than intended, which can affect resource scheduling and isolation.

Testing done:
Yes.

$ apiclient set settings.kubernetes.nvidia.container-runtime.visible-devices-as-volume-mounts = true
$ apiclient set settings.kubernetes.nvidia.container-runtime.visible-devices-envvar-when-unprivileged = false
$ apiclient get settings.kubernetes.nvidia.container-runtime
{
  "settings": {
    "kubernetes": {
      "nvidia": {
        "container-runtime": {
          "visible-devices-as-volume-mounts": true,
          "visible-devices-envvar-when-unprivileged": false
        }
      }
    }
  }
}

$ cat /etc/nvidia-container-runtime/config.toml
accept-nvidia-visible-devices-as-volume-mounts = true
accept-nvidia-visible-devices-envvar-when-unprivileged = false

[nvidia-container-cli]
root = "/"
path = "/usr/bin/nvidia-container-cli"
environment = []
ldconfig = "@/sbin/ldconfig"

Terms of contribution:

By submitting this pull request, I agree that this contribution is dual-licensed under the terms of both the Apache License, version 2.0, and the MIT license.

Signed-off-by: Monirul Islam <[email protected]>

arnaldo2792 · 2024-05-30T18:24:25Z

sources/models/shared-defaults/nvidia-k8s-container-toolkit.toml

+visible-devices-as-volume-mounts = false
+visible-devices-envvar-when-unprivileged = true
+
+[metadata.settings.kubernetes.nvidia.container-runtime]


This PR is missing a migration to remove the affected services on a downgrade.

arnaldo2792 · 2024-05-30T18:26:01Z

packages/nvidia-container-toolkit/nvidia-container-toolkit-config-k8s

+accept-nvidia-visible-devices-as-volume-mounts = {{settings.kubernetes.nvidia.container-runtime.visible-devices-as-volume-mounts}}
+accept-nvidia-visible-devices-envvar-when-unprivileged = {{settings.kubernetes.nvidia.container-runtime.visible-devices-envvar-when-unprivileged}}


Let's be safe, and use the {{default}} helper, otherwise if settings.kubernetes.nvidia.container-runtime.visible-devices-as-volume-mounts isn't present, the render will fail.

arnaldo2792 · 2024-05-30T18:31:49Z

sources/models/shared-defaults/nvidia-k8s-container-toolkit.toml

@@ -0,0 +1,14 @@
+[settings.kubernetes.nvidia.container-runtime]
+visible-devices-as-volume-mounts = false
+visible-devices-envvar-when-unprivileged = true


Lets use the default values to prevent unprivileged pods from accessing all the devices:

accept-nvidia-visible-devices-envvar-when-unprivileged = false

arnaldo2792 · 2024-05-30T18:38:00Z

sources/models/src/aws-k8s-1.30-nvidia/defaults.d/81-nvidia-k8s-container-toolkit.toml

@@ -0,0 +1 @@
+../../../shared-defaults/nvidia-k8s-container-toolkit.toml


The PR is missing symlinks for other variants, we need symlinks for:

aws-k8s-1.24-nvidia

aws-k8s-1.25-nvidia

aws-k8s-1.26-nvidia

ytsssun · 2024-06-12T06:49:30Z

Opened #4052 instead.

Nvidia settings API for container runtime

2adc490

Signed-off-by: Monirul Islam <[email protected]>

monirul force-pushed the nvidia-api branch from 7bb7d0f to 2adc490 Compare May 28, 2024 22:53

ytsssun force-pushed the nvidia-api branch from dc8cadd to 2adc490 Compare May 29, 2024 04:20

ytsssun mentioned this pull request May 30, 2024

DCGM will not run on GPU nodes with Bottlerocket OS #3992

Closed

arnaldo2792 requested changes May 30, 2024

View reviewed changes

ytsssun mentioned this pull request Jun 12, 2024

Nvidia container-runtime API for GPU allocation #4052

Closed

2 tasks

ytsssun closed this Jun 12, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Nvidia settings API for container runtime #3994

Nvidia settings API for container runtime #3994

monirul commented May 28, 2024

arnaldo2792 May 30, 2024

arnaldo2792 May 30, 2024

arnaldo2792 May 30, 2024

arnaldo2792 May 30, 2024

ytsssun commented Jun 12, 2024

		accept-nvidia-visible-devices-as-volume-mounts = {{settings.kubernetes.nvidia.container-runtime.visible-devices-as-volume-mounts}}
		accept-nvidia-visible-devices-envvar-when-unprivileged = {{settings.kubernetes.nvidia.container-runtime.visible-devices-envvar-when-unprivileged}}

		@@ -0,0 +1 @@
		../../../shared-defaults/nvidia-k8s-container-toolkit.toml

Nvidia settings API for container runtime #3994

Nvidia settings API for container runtime #3994

Conversation

monirul commented May 28, 2024

arnaldo2792 May 30, 2024

Choose a reason for hiding this comment

arnaldo2792 May 30, 2024

Choose a reason for hiding this comment

arnaldo2792 May 30, 2024

Choose a reason for hiding this comment

arnaldo2792 May 30, 2024

Choose a reason for hiding this comment

ytsssun commented Jun 12, 2024