11月6日消息,在AI算力需求爆发的背景下,高性能内存HBM的价格正持续飙升,SK海力士确认,明年向NVIDIA供应的HBM4单价约为560美元。
这一价格不仅高于此前业内预期的约500美元,而且比目前供应HBM3E的约370美元价格高出50%以上。
面对高端HBM价格的暴涨,以及中国企业遭受的出口管制,华为刚开源的技术或许可以减轻对这种产品的依赖。
日前华为宣布了一项针对AI推理加速的关键技术UCM推理记忆数据管理,并正式将其开源。
UCM的关键创新在于,它可以根据数据的“记忆热度”,在不同的存储介质中进行分级缓存,比如HBM存储“实时记忆数据”,DRAM中存储“短期记忆数据”,而SSD则存储“长期记忆数据与外部知识”。
其核心优势在于分级管理推理过程中产生的KV Cache记忆数据,充分利用不同存储介质的特性,从而提高HBM的利用率并平衡整体成本。
而开源的关键意义,在于能让更多开发者和企业通过记忆数据分级管理,降低对高端HBM的依赖。
华为透露,基于UCM,可实现首Token时延最高降低90%,系统吞吐最大提升22倍,并达到10倍级上下文窗口扩展。
当然,UCM不是为了取代,也无法取代HBM,而更像是一种“系统补短板”,把HBM的优势发挥在更合适的地方,实现降本增效。
转载请注明出处。

相关文章
精彩导读
热门资讯
关注我们