第三届 HAMi Meetup 深圳站回顾

4 月 25 日,HAMi 社区在深圳成功举办第三场线下 Meetup。来自 CNCF、顺丰科技、招商银行、燧原科技、深信服、博维智慧科技及密瓜智能的七位技术专家,围绕 AI 基础设施云原生演进、GPU 算力池化、异构调度、DRA 技术展望等前沿话题,为现场观众带来了一场深度技术盛宴。
本次活动由 HAMi 社区发起,由密瓜智能主办,顺丰科技协办并提供场地支持。
活动亮点速览
- Keith Chan(CNCF 中国区总监、Linux 基金会亚太区副总裁) 从全球视角解读 AI 基础设施的云原生趋势,透露 KubeCon 上海站 AI 相关议题占比高达 60%-80%
- 李孟轩(密瓜智能联合创始人兼 CTO、HAMi Maintainer) 首次公开 v2.9 版本核心特性,揭秘 DRA 生态联盟布局与异构算力统一管理愿景
- 陈俊超(顺丰科技后端开发高级工程师) 分享 5 个私有云集群 + 多家公有云的 GPU 池化落地实战,集群平均利用率从 40% 提升至 90%
- 苏茜(招商银行研发工程师) 揭秘超节点硬件适配与网络拓扑感知调度,跨机调度概率降低 30%
- 马达(燧原科技) 展示基于 GPU Operator + CDI + DRA 的全栈云原生集成方案
- 贾毫杰(深信服云 AI 总架构师) 分享 AI 算力网关治理策略,将每一分算力转化为可衡量的业务价值
- 欧彬凯(博维智慧科技研究员、广东省智能科技研究院脑机数字融合实验室主管) 展示一键部署平台与 HAMi 深度整合的 GPU 虚拟化实践
技术分享回顾
AI 基础设施全面云原生化
CNCF 中国区总监、Linux 基金会亚太区副总裁 Keith Chan 分享的 CNCF 调研数据显示,全球已有 66% 的企业将 AI 负载运行在云原生环境上。Kubernetes 已成为 AI 基础设施的统一编排层,NVIDIA 正式加入 CNCF 成为白金会员,PyTorch 社区与云原生社区深度融合。AI 领域的竞争焦点正在从"堆算力"转向"用算力",如何以最低成本、最高效率利用算力成为核心命题。
HAMi v2.9 版本特性与 DRA 生态联盟
密瓜智能联合创始人兼 CTO、HAMi Maintainer 李孟轩 首次公开了 HAMi v2.9 版本的核心特性与未来规划:
- DRA(Dynamic Resource Allocation)生态联盟,连接设备厂商与用户,推动 DRA 在真实场景中的落地与标准化演进
- 面向 NVIDIA / Ascend / Enflame 的 DRA 方案落地实践
- HAMi v2.9 核心能力预览:更细粒度的昇腾切分能力、支持 kai-scheduler 调度、Dynamic MIG 调度优化
顺丰科技:多云 GPU 池化落地实战
顺丰科技后端开发高级工程师 陈俊超 分享了顺丰科技基于 HAMi 构建统一算力池化方案的实践经验:
- 在多云 Kubernetes 集群上实现 AI 算力的统一调度与精细化管理
- 成功解决 GPU 利用率低、资源割裂和运维复杂等核心挑战
- 目前已在顺丰科技多个生产集群中稳定运行
招商银行:异构 AI 算力调度优化实践
招商银行研发工程师 苏茜 分享了基于 HAMi 构建统一纳管多源异构 AI 算力调度平台的实践:
- 适配昇腾 910C 超节点,实现算力资源 100% 入池与大模型高性能通信
- 借助 HAMi-vNPU-Core 软切分方案,以用户态拦截方式实现显存与算力的细粒度共享,显著提升单卡承载任务数
- 自研网络拓扑感知调度算法,将跨机调度概率降低 30%,有效破解分布式训练的网络瓶颈
燧原科技:Kubernetes 生态与 GPU 集成实践
燧原科技 马达 展示了基于 GPU Operator + CDI + DRA 的全栈云原生集成方案:
- 基于 GPU Operator 的标准化设备管理
- CDI(Container Device Interface)实现不侵入业务容器的资源管理
- DRA 技术实现动态资源分配,提升调度灵活性
深信服:AI 算力网关算力优化与模型治理实践
深信服云 AI 总架构师 贾毫杰 分享了深信服 AI 算力网关产品在算力优化和模型治理过程中的实践经验:
- 将每一分算力转化为客户可衡量的业务价值
- 通过语义分析将简单问题路由至低成本模型、复杂问题路由至高价模型
- 结合安全护栏机制,实现算力成本与效果的最优平衡