跳转到文档内容
版本:下一个

性能测试

在测试报告中,我们使用 vLLM benchmark 在以下三种场景执行测试脚本,并汇总最终结果。

测试环境

参数
Kubernetes versionv1.35.4
Docker version29.4.0
GPU TypeA100-SXM4-40GB
GPU 数量2

测试实例

测试名称测试用例
Nativek8s + nvidia 官方 k8s-device-plugin
Opensource_v280k8s + VGPU k8s-device-plugin,开源版本 v280
Opensource_v290k8s + VGPU k8s-device-plugin,开源版本 v290

测试内容

test id名称类型参数
6.1Qwen3-8B (vLLM)inferencebatch=1, stream=True, max_model_len=8192

测试结果

指标NativeOpensource_v280Opensource_v290
TTFT p50 (s)0.06210.06700.0629
TTFT p95 (s)0.06420.07130.0650
TTFT p99 (s)0.06520.07350.0674
每 token 延迟 (clean mean, s)0.02850.03100.0291

复现步骤

  1. 安装 k8s-vGPU-scheduler,并配置相应的参数。

  2. 构建 benchmark 镜像:

cd benchmarks/ai-benchmark
sh build.sh
  1. 运行 benchmark 任务:
kubectl apply -f benchmarks/deployments/job-on-nvidia-device-plugin.yml
kubectl apply -f benchmarks/deployments/job-on-hami.yml
  1. 查看结果:
kubectl cp <pod-name>:/results ./results
python3 benchmarks/ai-benchmark/gen_report.py \
--dataset native ./results/bench_native.jsonl \
--dataset hami ./results/bench_hami.jsonl
CNCFHAMi 是 CNCF Sandbox 项目