近日,美团正式发布并开源其最新大模型 LongCat-Flash-Chat,该模型在多项基准测试中展现出卓越性能,尤其在通用知识理解与智能体任务方面表现突出,综合能力超越 DeepSeek-V3.1,并在编程任务中接近 Claude4 Sonnet 的水平。
LongCat-Flash 采用混合专家模型(Mixture-of-Experts, MoE)架构,总参数量达到 560B,但通过创新的“零计算专家”机制,每个 token 仅激活 18.6B 至 31.3B 参数,平均激活参数量约为 27B。这一设计显著提升了计算效率,在保证模型性能的同时,大幅降低了推理阶段的资源消耗。
在 ArenaHard-V2 基准测试中,LongCat-Flash 取得 86.50 的得分,位列所有评估模型中的第二名,超过 DeepSeek-V3.1。在智能体相关任务中,其表现也优于 DeepSeek-V3.1、Qwen3 MoE-2507,甚至在某些方面超过闭源模型 Claude4 Sonnet。这一成绩表明,LongCat-Flash 在复杂任务处理和指令遵循方面具备显著优势。
编程能力方面,LongCat-Flash 在 TerminalBench 基准测试中获得 39.51 分,仅次于 Claude4 Sonnet 的 40.7 分,显示出其在命令行任务和代码生成方面的强劲实力。尽管与“编程之王”仍存在微小差距,但其表现已处于行业领先水平。
美团在模型训练过程中采用了多项技术创新。通过 PID 控制器实时调节专家偏置,有效控制激活参数量,提升训练稳定性。跨层通道的引入实现了 MoE 结构中通信与计算的高效并行,进一步加速训练与推理过程。配合底层系统优化,该模型在 30 天内完成训练,并在 H800 硬件上实现每秒 100+ token 的生成速度,推理成本低至每百万 token 5 元。
针对智能体能力的优化,LongCat-Flash 通过自建评测集指导数据策略,并采用多智能体方法生成多样化、高质量的轨迹数据,全面提升了模型在复杂交互与任务执行中的表现。
综合来看,LongCat-Flash 不仅在性能上媲美甚至超越当前主流大模型,更在效率与成本控制方面实现显著突破。其开源发布将为学术界和工业界提供一个新的高性能基础模型选择,推动大模型技术在更多实际场景中的应用。
目前,LongCat-Flash-Chat 已在 GitHub 和 Hugging Face 平台开源,用户可访问其官方网站进行体验。
(注:本文在资料搜集、框架搭建及部分段落初稿撰写阶段使用了 AI 工具,最终内容经人类编辑核实事实、调整逻辑、优化表达后完成。)
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。