排障手册
- 如果在使用 NVIDIA 镜像的设备插件时不请求 vGPU,机器上的所有 GPU 可能会在容器内暴露。
- 目前,A100 MIG 仅支持 "none" 和 "mixed" 模式。
- 目前无法调度带有 "nodeName" 字段的任务;请改用 "nodeSelector"。
- 目前仅支持计算任务;不支持视频编解码处理。
- 我们将
device-plugin
环境变量名称从NodeName
更改为NODE_NAME
,如果您使用镜像版本v2.3.9
,可能会遇到device-plugin
无法启动的情况,有两种方法可以解决:- 手动执行
kubectl edit daemonset
修改device-plugin
环境变量从NodeName
为NODE_NAME
。 - 使用 helm 升级到最新版本,
device-plugin
镜像的最新版本是v2.3.10
,执行helm upgrade hami hami/hami -n kube-system
,它将自动修复。
- 手动执行