我国已建设高质量数据集超过3.5万个，体量超过400PB

8月14日消息（南山）今日，国新办举行“高质量完成‘十四五’规划”系列主题新闻发布会。

国家发展改革委党组成员、国家数据局局长刘烈宏在发布会上表示，作为人工智能发展的三大核心要素之一，数据在推动“人工智能+”过程中发挥着关键作用，特别是高质量数据集的建设至关重要，比如在医疗健康领域，通过标注的医学影像高质量数据集，模型的疾病诊断准确率可以提升15%以上。在人工智能时代，Token，也就是大家通常所说的词元，作为处理文本的最小数据单元，如同互联网时代大家所说的“流量”。

刘烈宏（徐想摄）

“2024年初，我国日均Token的消耗量为1千亿，截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，这反映了我国人工智能应用规模的快速增长。”刘烈宏指出。

我国人工智能的快速发展，与我国高度重视数据工作是密不可分的。国家数据局强调“人工智能+”行动到哪里，高质量数据集的建设和推广就要到哪里。截至今年6月底，我国已经建设高质量数据集超过3.5万个，总体量超过了400PB（1PB可存储约5亿张2MB大小的高清照片，400PB的总量相当于中国国家图书馆数字资源总量的140倍左右）。

刘烈宏介绍，人工智能模型的训练也推动了数据交易需求的攀升，截至今年6月底，各地高质量数据集累计交易额近40亿元，数据交易机构挂牌的高质量数据集总规模达到了246PB。以北京数交所为例，高质量数据集占交易总量的比例从去年的10%跃升到目前的近80%。上海、天津、安徽等地正在试点“数据语料作价入股”等新模式，引导企业将高质量数据集折算为股权投入到相关企业。高质量数据集的发展需要数据标注产业的支撑，我们已布局了成都、沈阳、合肥等7个数据标注基地，助力高质量数据集的建设。

刘烈宏还特别提到，中文数据在国内大模型的训练性能提升方面发挥着重要作用。大家都非常关心中文数据在训练数据中的占比情况，经过一段时间的努力，国内多数模型训练使用的中文数据占比已经超过了60%，有的模型已达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能的快速提升。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

我国已建设高质量数据集超过3.5万个，体量超过400PB

下一篇