标题:DeepSeek R1模型升级:幻觉率降低近50%,实力再提升
DeepSeek,作为人工智能领域的佼佼者,近日宣布其R1模型取得了重大升级。新版DeepSeek-R1-0528在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。相较于旧版,新版在复杂推理任务中的表现有了显著提升,并在数学、编程与通用逻辑等多个基准测评中取得了优异成绩,整体表现已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。
首先,DeepSeek团队对幻觉问题的优化值得称赞。新版DeepSeek R1针对“幻觉”问题进行了优化,与旧版相比,幻觉率降低了约45~50%,这无疑为用户提供了更为准确、可靠的结果。这一改进不仅提升了模型的实用性,也增强了其在各个领域的应用价值。
其次,DeepSeek R1模型在创意写作方面也取得了显著进步。旧版R1的基础上,新版R1模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。这无疑为用户提供了更为丰富、多元的写作选择。
再者,DeepSeek-R1-0528在工具调用方面也表现不凡。新版模型支持工具调用(不支持在thinking中进行工具调用),当前模型Tau-Bench测评成绩为airline 53.5% / retail 63.9%,与OpenAI o1-high相当,但与o3-High以及Claude 4 Sonnet仍有差距。这意味着DeepSeek-R1-0528在工具调用方面具有广阔的应用前景和潜力。
此外,DeepSeek-R1-0528还在前端代码生成、角色扮演等领域的能力均有更新和提升。这些能力的提升无疑为用户提供了更为丰富、多元的应用场景和选择。
值得一提的是,DeepSeek-R1-0528与之前的DeepSeek-R1使用同样的base模型,仅改进了后训练方法。私有化部署时只需要更新checkpoint和tokenizer_config.json(tool calls相关变动)。模型参数为685B(其中14B为MTP层),开源版本上下文长度为128K(网页端、App和API提供64K上下文)。这样的升级策略既保证了模型的稳定性和可靠性,又为用户提供了更多的选择和可能。
DeepSeek团队认为:DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。这一观点无疑表达了DeepSeek团队对于自身技术的信心和对于未来发展的期待。
总的来说,DeepSeek R1模型的升级无疑是一次重大的突破和提升。在幻觉率降低近50%的同时,与o3、Gemini-2.5-Pro等顶尖模型并肩,展现了DeepSeek在人工智能领域的强大实力。我们期待DeepSeek在未来能够继续带来更多创新和突破,为人工智能领域的发展做出更大的贡献。
- 新能源车销量榜揭秘:零跑夺冠,鸿蒙智行重回前三,谁将成为黑马?
- 荣耀阿尔法引领机器人新纪元:AI生态拓展,未来已来
- 比亚迪腾势D9破茧而出,蝉联MPV市场销量冠军,实力碾压同级
- 端午假期出行新观察:滴滴出行打车需求上涨31%,00后看龙舟需求翻倍的出行新潮流
- 台积电CEO回应日本芯片厂推迟:交通拥堵成新难题,建厂受阻
- 小米汽车业务盈利在望:雷军预测今年三四季度揭晓,能否兑现成关注焦点
- 今晚8点来京东 造型呆萌的乐享WAWA机器人1元起拍
- GenAI领域特定模型占比2030年将达50%:别只盯着基础大模型卷了!
- 苹果利润不再称霸,2025年财富500强排名变迁:财富新秀引领变革?
- 软银与英特尔联手研发新型AI内存芯片:耗电减半,未来已来!
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。