近期,由谷歌、卡内基梅隆大学和MultiOn组成的联合研究团队,发布了一项关于合成数据在大型模型训练中应用的重要研究成果。
专注于人工智能发展的研究机构Epoch AI报告指出,当前全球约有300万亿个公开可用的高质量文本训练标记。但随着像ChatGPT这类大模型的快速发展,对训练数据的需求呈指数级增长,预计在2026年之前,这些现有数据将被耗尽。在此背景下,合成数据成为了关键的替代方案。
研究人员着重探索了两种合成数据类型,即正向数据和负向数据。正向数据是由高性能大模型,如GPT - 4和Gemini 1.5 Pro生成的正确问题解决方案,为模型提供解决数学问题的范例。然而,单纯依靠正向数据进行训练存在明显局限。其一,这种方式可能无法让模型真正理解问题解决背后的逻辑,只是通过模式匹配来学习;其二,随着训练数据量的增加,模型可能会学到虚假的相关性,导致在处理新问题时泛化能力降低。
有鉴于此,研究人员引入了负向数据,也就是经过验证为错误的问题解决步骤。这能帮助模型识别并避免错误,从而增强其逻辑推理能力。尽管使用负向数据存在挑战,因为错误步骤可能包含误导性信息,但研究人员借助直接偏好优化(DPO)方法,成功让模型从错误中学习,并强调每个问题解决步骤的重要性。
DPO方法会为每个问题解决步骤分配一个优势值,以反映其相对于理想解决方案的价值。研究发现,高优势步骤是正确解决问题的关键,而低优势步骤可能意味着模型推理存在问题。基于这些优势值,模型能够在强化学习框架内动态调整策略,更高效地从合成数据中学习和改进。
为验证合成数据的有效性,研究团队选用DeepSeek - Math - 7B和LLaMa2 - 7B等模型,在GSM8K和MATH数据集上开展了全面测试。结果令人惊喜,经过正向和负向合成数据预训练的大模型,在数学推理任务上的性能提升了八倍。这一研究充分彰显了合成数据在增强大模型逻辑推理能力方面的巨大潜力,为大模型的发展开辟了新的方向。(Suky)
- 《黑神话:悟空》PS5国行版将于6月18日正式发售,建议零售价268元起
- 报告:2029年美国AI搜索广告支出将达260亿美元,占比13.6%
- 重塑内生安全体系 实现AI时代安全突围 ——2025北京网络安全大会(BCS)开幕
- 覆盖上百国家!启信慧眼全球供应链“风险地图”助力中企安全“出海”
- 门禁凭证技术进化简史:开启更加安全和便利的未来
- Google I/O 大会:科技盛宴,引领未来创新潮流
- 马蜂窝端午出行大数据:短途周边游是主流,非遗民俗关注度持续走高
- 微软裁员6000人原因揭晓 AI冲击首当其冲
- 腾讯音乐2025Q1业绩持续高质量增长:在线音乐服务收入达58亿元,同比增长15.9%
- 硅谷巨头庭审吐真言:未来10年Meta、谷歌搜索、iPhone或成历史
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。