跳转到文档内容

HAMi v2.8.0 发布:全面支持 DRA 与高可用调度,迈向标准化 GPU 资源管理

· 阅读需要 6 分钟
HAMi 社区

HAMi 社区正式发布 HAMi v2.8.0。这是一个在 架构完整性、调度可靠性以及生态对齐 层面具有里程碑意义的版本。

v2.8.0 不仅引入了多项关键特性更新,也在 Kubernetes 原生标准对齐、异构设备支持、生产可用性与可观测性 等方面进行了系统性增强,使 HAMi 更加适合在长期运行、对稳定性和演进路径敏感的 AI 生产集群中使用。

本文将对 v2.8.0 的主要更新进行详细说明。

第二届 HAMi Meetup 北京站回顾

· 阅读需要 4 分钟
HAMi 社区

HAMi Meetup 北京站

12 月 27 日,HAMi Meetup 北京站在近百位技术伙伴的参与下圆满落幕。作为 HAMi 社区的第二场线下活动,本次 Meetup 聚焦国产算力的生产实践与异构调度工程落地,来自贝壳、海光信息、第四范式、昆仑芯等企业的工程师分享了他们的一线经验。

HAMi 项目 GPU Pod 调度流程源码走读

· 阅读需要 33 分钟
Maintainer

使用 HAMi 的过程中经常会出现 Pod 被创建出来 Pending 的问题,犹以如下两个问题为著:

  • Pod UnexpectedAdmissionError
  • Pod Pending

介于此,展开这部分代码的粗略走读,旨在说明调度过程中各组件的交互,以及资源的计算方式,其他细节会有所遗漏。

介绍 HAMi

· 阅读需要 3 分钟
HAMi 社区

什么是 HAMi?

HAMi(异构 AI 计算虚拟化中间件),之前称为 k8s-vGPU-scheduler,是一种创新解决方案, 旨在管理 Kubernetes 集群内的异构 AI 计算设备。这个一站式中间件能够实现各种 AI 设备的共享, 同时确保不同任务之间的资源隔离。通过提高异构计算设备的利用率, HAMi 提供了一个统一的复用接口,以满足不同设备类型的需求。