百度智能云千帆升级数据增强功能,20条数据即可实现大模型高效训练

在企业数字化转型进程中,大模型业务适配需求愈发迫切,但数据准备却成为关键阻碍。一方面,大模型训练需高质量、充足的数据支撑,而垂类场景下,高质量标注数据稀缺且成本高,隐私合规也限制了数据来源;另一方面,数据类别不平衡也会影响模型效果,且多数企业团队缺乏算法背景,传统数据增强技术门槛高,难以实现小数据量下的高效能。

为此,百度智能云千帆ModelBuilder重磅升级文本数据集“数据增强”功能,业界首创智能生成+人工筛选双轨增强链路。直击精调数据样本稀疏与分布偏差两大痛点,通过Evol-Instruct等算法产品化实现能力多元拓展,结合自动化效率与人工质控双重保障,大幅降低训练集构建门槛与成本,让非技术用户也能高效打造优质数据,推动模型效果显著提升。

在大模型训练中,训练数据的样本量和多样性直接影响模型的表现和泛化能力。数据增强是指通过对已有的种子数据施加特定的变换、扰动或生成策略,创造出一系列内容合理、语义和风格保持一致但形式多样的增强数据。通过这种方式扩大训练数据规模,增强训练数据的多样性,引导模型在训练中学习到更丰富的语言模式与语义变体,从而降低过拟合风险,增强模型在真实场景中的泛化能力。

百度智能云千帆模型开发平台ModelBuilder支持对文本数据集进行灵活的增强操作,支持分步生成多样化的Prompt和高质量的Response训练数据,改善模型训练效果。

百度智能云千帆ModelBuider“数据增强”拥有四大核心优势:一是精准解决精调数据样本稀疏与分布偏差两大痛点,有效提升模型泛化能力;二是集成Evol-Instruct等前沿算法并实现产品化落地,提供丰富预置增强方向与高度自定义配置,适配各类差异化业务场景;三是独创“Prompt自动生成→人工筛选优化→Response智能生成”增强链路,兼顾效率与数据质量;四是通过零代码、可视化操作界面,降低技术门槛与经济成本,让非算法背景人员也能高效构建训练集。

百度智能云千帆升级数据增强功能,20条数据即可实现大模型高效训练

在舆论媒体文本情感分析场景,情感分析(也被称为意见挖掘)是自然语言处理的重要分支,需判断文本情感倾向,应用广泛但面临数据差异大、文本形式复杂等挑战。

经实验,基于目前平台的数据增强功能,在原始数据量有限或质量不足时,通过创造多样化的“新”数据,能够针对具体业务场景,结合模型精调有效提高模型的性能。本实验仅采用轻量化模型ERNIE-Tiny-8K和默认参数配置作为参考,仅使用20条数据,准确率已经能够从基础模型的23%提升到85%,二次优化后,也能提升至86%,并几乎追平“人工准备数据3000条”的模型效果。

百度智能云千帆升级数据增强功能,20条数据即可实现大模型高效训练

目前,百度智能云千帆ModelBuilder “数据增强”功能已正式上线。开发者可访问百度智能云千帆官网体验,建议在数据增强后,开发者人工审核标注结果以及数据分布情况,确保数据质量及分布均满足要求,然后发起模型精调。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )