近日,豆包大模型在火山引擎原动力大会上正式发布。以超低价格掀起大模型降价潮的同时,豆包的模型能力也引发行业关注。
在火山引擎的一份产品资料中,豆包模型团队公布了一期内部测试结果:在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,相比上一代模型云雀Skylark2的64.5分提升了19%,也优于同期测试的其他国产模型。
此次评测在今年5月完成,主要包括豆包通用模型-pro、云雀Skylark2在内的九款国产大语言模型。除了云雀Skylark2 以外,其他模型均为各家厂商最新发布的高级版本,通过API调用进行测试。
图:豆包模型团队内部测试结果
评测结果显示,在评估代码能力的两个评测集 HumanEval和 MBPP上,豆包相比上一代模型提升了50%左右;在专业知识和指令遵循的评测集上,豆包分别获得33%和24%的性能提升,同时也是得分最高的国产模型。
此外,豆包模型在数学能力、语言理解能力,以及综合评测集 CMMLU和 CEval的评测上也有不错的表现,得分排在前三。综合11个公开评测集上的测试成绩,豆包通用模型-pro的总分为76.8分。根据OpenAI公布的测试成绩,GPT-4在这些评测集上的总分为80.1分,相比国产模型仍有一定领先优势。
据悉,豆包模型在5月15日刚刚推出,尚未加入到第三方机构测试中。预计未来一到两个月内,很多第三方评测机构将会陆续披露该模型的评测结果。与模型同名的AI对话助手“豆包”,官方公布的月活用户数已经达到2600万,用户可以自由体验测试。
此前,智源研究院公布了覆盖全球91个语言模型的评测报告。在偏重考察中文能力的主观评测中,云雀Skylark2排名第一,中文能力超过 GPT-4。
图:智源研究院语言模型评测结果(模型为4月20日之前的版本)
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 携号转网受限难题,运营商与用户需双向推进
- 宁德时代回应“896”工作制:公司没有发出这样的规定
- TechWeb微晚报:一文看懂免费AI辅助报志愿;苹果分批推出AI功能,重磅功能明年上线
- 周鸿祎回应“360发布会和黄仁勋发布会相比太庸俗”:对我太抬举了
- 抖音联合博纳出品AIGC科幻短剧集《三星堆:未来启示录》,即梦AI提供首席技术支持
- 全年GMV翻番 B2R电商模式已成普莉斯町增长新引擎
- 深挖超300家出海企业需求,神州泰岳联手亚马逊云科技加速生成式AI服务落地
- Microsoft AI Day:加速AI技术落地转化,助力好未来、OPPO等创新应用
- 想省下报“张雪峰们”的钱,这些免费AI报志愿工具可以一用
- 李开复、张亚勤对谈:大模型产业化,To B、To C哪个赛道更有机会?
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。