极客网·人工智能8月12日 在当今数字化时代,AI的发展可谓日新月异。大模型训练的热潮尚未消退,AI推理体验却已悄然成为AI应用的关键。
中信建投在2025WAIC期间发布的白皮书指出,AI正从训练向推理的结构性转变而快速增长(如国内某头部互联网公司每三个月Token消耗接近翻一倍,5月底为16.4万亿Token)。在这样的大背景下,AI推理体验的重要性愈发凸显。
推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入 200 Tokens/s区间(时延 5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据悉,华为将在2025金融AI推理应用落地与发展论坛上发布AI推理创新技术UCM(推理记忆数据管理器)。作为一款以KV Cache为中心的推理加速套件,UCM融合多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本,有望解决上述难题。
分析指出,随着AI 产业已从“追求模型能力的极限” 转向“追求推理体验的最优化”,推理体验直接关联用户满意度、商业可行性等,成为了衡量模型价值的黄金标尺。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )