在讨论AI基础设施成本时,焦点已不再仅限于英伟达和GPU,内存正成为日益关键的部分。随着超大规模企业投入巨资建设新数据中心,DRAM芯片价格在过去一年大幅上涨。同时,如何高效编排内存,确保在正确时间将数据送达正确代理,已成为一门重要学问。
精通内存管理的公司能够用更少的令牌完成相同查询,这可能是企业生存与倒闭的区别。半导体分析师与行业专家指出,AI模型中的内存管理将是未来AI发展的重大组成部分。例如,Anthropic的提示词缓存定价页面已从简单的建议演变为详细的百科全书,涉及缓存写入预购数量、5分钟或1小时层级等复杂策略。利用缓存中的数据成本更低,但查询中新增的每个数据位都可能将其他内容挤出缓存窗口。
这一新兴领域仍有巨大进步空间。此前已有初创公司专注于缓存优化等层面。机会也存在于技术栈的其他部分:在底层,数据中心如何利用不同类型的内存(如DRAM与HBM);在高层,终端用户正学习构建模型集群以利用共享缓存。随着企业在内存编排上更加熟练,令牌使用量将减少,推理成本随之降低。同时,模型处理每个令牌的效率也在提升,进一步压降成本。服务器成本下降后,许多目前看似不可行的应用将开始触及盈利门槛。



