大模型训练“练兵千日”,别输在AI推理“用兵一时”

极客网·极客观察(朱飞)8月7日 2025年被认为是AI智能体的元年,是AI走向大规模应用的开始。随着AI应用爆发,算力的需求逻辑也正在被重塑:AI推理——而不是训练,将成为未来算力需求的核心增长点。

这种趋势在刚刚结束的2025年世界人工智能大会(WAIC)多有体现。一方面,主流大模型玩家纷纷推动成熟产品“瘦身”,以轻量化模型适配更多终端设备。另一方面,多家AI Infra创企押注AI推理芯片,抢抓AI模型从实验室走向生产场景的红利。

中信建投在2025 WAIC期间发布的白皮书指出,随着AI算力消耗从训练向推理的结构性转变,国内算力消耗正快速增长(如字节跳动每三个月Token消耗接近翻一倍,5月底为16.4万亿Token),按此趋势主流云服务商将很快感受到算力紧张、出现算力缺口。

就在这个节骨眼上,中美AI推理体验的鸿沟已经显现。相比以美国为代表的领先国家,中国大模型的推理体验(包括时延、准确度、上下文推理等方面)已大幅落后;风靡一时的DeepSeek等国内开源大模型,活跃用户数遭遇了严重下滑。

如果说大模型训练是“练兵千日”,那么推理就是“用兵一时”。站在2025这个本该兑现AI商用价值的关键时刻,推理算力却成了新的“吞金兽”,不持续“堆芯片”用户体验就难以为继,这要求全球各国、各行各业都引起高度重视,找到推理体验与算力成本的平衡点。

尤其是对于高端算力芯片受限、软件及生态薄弱的中国AI产业来说,我们必须在“戴着镣铐跳舞”的现实中寻求新的突破、找到新的解法,别让中美AI竞争输在“最后一公里”!

Token经济时代:打不起的价格战,输不得的体验战

在AI商业化过程中,Token(词元)被迅速推至台前。它既是大模型训练及推理过程中处理的最小语义单元,也是最基础的计量计费单位,用于衡量AI产品服务使用量和商业化收费标准,因而AI时代也被称为Token经济时代。

类似于移动通信数据流量伴随3G-4G-5G升级而大幅提升,随着模型逐渐复杂化和业务场景不断丰富,用户的Token消耗量也在与日俱增。比如,智能体(Agent)执行一次任务平均消耗的Token已达到10万量级;海量用户汇聚使得单个头部大模型日均Token消耗量已达百亿级,推理成本持续攀升。

这种成本攀升折射到国内市场,可以发现去年打得火热的Token价格战到今年已经趋于冷静,主流大模型厂商已从单纯降价转向技术升级与场景优化结合(包括支持超长文本处理、多模态推理等差异化能力),避免沦为芯片厂商的“打工人”,甚至赔本赚吆喝。

即便如此,受限于高端芯片供给和资本开支差距,中国大模型的推理体验已经落后于美国领先大模型。资料显示,OpenAI O3 mini、Google Gemini等模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),中国普遍小于60 Tokens/s(时延50~100ms)。比如OpenAI O3 mini每秒能输出的Token(214个)约为DeepSeek(21个)的10倍,用户会直接感受到OpenAI给出回答的时间要比DeepSeek快很多。

体验掉队的代价是巨大的。有数据显示,相比其他顶尖模型用户数持续增长,DeepSeek用户数自发布后绝对流量一直在下降,其使用率已从年初的50%暴跌至当前的3%左右,用户正在从DeepSeek流失转向其他模型应用。

一言以蔽之,不同于边际成本极低的互联网时代,算力成本高企(GPU价格昂贵且超负荷使用两三年就得换新)的Token经济时代,Token量越大越是打不起价格战,当然也输不得体验战。要在AI时代健康可持续发展,必须解决推理体验与算力成本平衡的难题。

“戴着镣铐跳舞”:GPU+HBM被锁死,软件生态也旁落

面对这一难题,在以美国为首的算力充沛国家,中高端GPU搭载HBM(高带宽内存)的产品形态已成为主流趋势。MLPerfTM基准测试显示,HBM可使推理速度提升30-60%;反之,HBM不足时,推理体验会明显下降,如出现任务卡顿、响应慢等问题。

背后的技术逻辑在于,AI推理需要频繁读取模型参数和输入数据,而HBM是解决“数据搬运”的关键。作为一种通过3D堆叠和超宽接口实现极高数据传输带宽的先进内存技术,HBM可显著提升内存与GPU、NPU等处理器之间传输数据的速度,确保计算核心以极高的速度获取所需的数据,从而最大限度利用AI加速器的强大算力,提高推理吞吐量。

然而,和中高端GPU一样,全球HBM市场也高度集中并掌握在国外头部厂商手里。它们与先进芯片一起被纳入美国“长臂管辖”的销售管制清单,中国厂商无法获取(特供版GPU和HBM能力都被严重“阉割”),导致中国大模型的推理体验提升受到极大制约,“钱花了还办不成事”。

更触目惊心的是,“戴着镣铐跳舞”(比如使用英伟达的低端H20产品)的中国模型服务商,正匍匐在一条将应用生态构筑在别人“地基”(比如英伟达CUDA)之上的老路。当英伟达通过“硬件迭代→软件优化→生态绑定”构建起推理时代的“铁三角”时,中国厂商连对方的低端产品也很难离开(调研显示从英伟达等生态迁移至国产平台需重构70%代码,成本相当于三个程序员年薪),完全陷入美国编织的AI秩序里。

这里面涉及的技术账、经济账、安全账都是十分沉重的,必须引起高度的重视!从技术效率上讲,低端技术长期看肯定打不过中高端技术,必然导致产品竞争力下降;从经济成本看,“质次价高”的特供芯片,绝非平衡推理体验与算力成本的优选方案;从供应链安全角度看,国产化迁移改造的历史进程,绝对容不得算力芯片漏洞后门的掣肘。

破局之道畅想:从单点突破到系统创新,重视软件及生态

何以破局?参照我国在AI训练阶段的突围之道(比如昇腾384超节点以集群方式突破性能极限),AI推理或许也可以从单点突破走向系统创新,重视软件能力并及早培育生态,弥补硬件物理层面的不足和限制,探寻一条可持续、可复制的最佳路径。

从技术层面看,AI推理的关键在于键值缓存(KV Cache),其好比一份“上下文备忘录”——缓存前面所有内容的关键信息(Key和Value),让AI生成下一个词时不用重复计算历史信息,从而大幅加速推理过程。但KV Cache需要占用GPU的显存(如HBM),生成的文本越长,缓存的数据量就越大,容易触发容量限制,导致推理时延增加、吞吐量下降。业界可以考虑通过硬件+软件系统创新的方式,将KV Cache缓存至存储层,以AI存储方案加速AI推理,减少对昂贵HBM的依赖。

image010.jpg

从生态层面看,面对国产化改造和AI推理爆发的巨大机遇,业界龙头厂商、行业头部用户要站出来先行先试,验证技术方案,打造联盟生态,别让“楼房建起来了再去重构地基”,费时费力又费钱。特别是数字化程度高、数据密度大、AI应用场景丰富的金融、医疗、教育等行业,一定要从一开始便算好技术账、经济账和安全账,以生态之力护航AI转型行稳致远。

回顾过去,美国凭借龙头企业技术引领+产业生态深度协同的“组合拳”,统治了计算产业从专用计算到通用计算的大部分时期。就在7月下旬,美国又发布了《赢得AI竞赛:美国AI行动计划》,再次显露主导全球人工智能发展的野心。此时此刻,在AI大模型“练兵千日,用兵一时”的历史拐点,产业各界必须警觉起来,别让中美AI竞争输在“最后一公里”!

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2025-08-07
大模型训练“练兵千日”,别输在AI推理“用兵一时”
AI推理——而不是训练,将成为未来算力需求的核心增长点。

长按扫码 阅读全文