海天瑞声李科分享技术赋能人工智能标注，高质量数据助推人工智能发展

3月9日，钛媒体华楠直播间「训练AI的人」专场直播中，海天瑞声副总经理、业务负责人李科受邀做客直播间，分享人工智能在标注和算法中有哪些技术革新、AI训练师如何教人工智能更懂人类，如何赋能人工智能产业。

华楠：

AI训练师是一个怎样的职业，请科总为我们简单介绍。

李科：

2021年底，人力资源社会保障部、工业和信息化部共同制定的人工智能训练师等6个国家职业技能标准出台。在《人工智能训练师国家职业技能标准》中，对于人工智能训练师的职业定义，是使用智能训练软件，在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅导作业的人员。人工智能训练师包含两个工种五大等级，分别为数据标注员和人工智能算法测试员，又分初级工、中级工、高级工、技师、高级技师这由低到高的五大等级。

华楠：

对于您提到的数据标注员和算法测试员，请您进一步介绍两个职业分别做什么工作，又有怎样的区别?

李科：

我们业内经常有一句话：有多少人工就有多少智能。

数据标注员从事的主要是人工部分的工作。根据相关的要求和规范，基于标注员自身的知识进行数据标注。举例来说，在人脸识别、自动驾驶场景中，很多数据是从真实世界中获取的原始数据，这些数据无法直接用作算法训练，需要通过人的加工，才可以形成最终被算法识别的结构化数据集。

例如在算法识别人脸数据的场景中，需要对人脸进行关键点标注。最简单的关键点包括两个瞳孔、一个鼻尖和两个嘴角。而随着算法进步，需要标注的关键点也随之增加。在以往的实际业务中，我们最多能够在一张脸上标注200多个关键点。

这听起来简单，但在实际操作过程中会遇到很多难点，如遇到暗光环境、侧脸环境、非正面环境等，标注员只能看见单侧的瞳孔，需要对应想象另一侧瞳孔的位置才能进行标注。

另外一个职位是算法测试员，主要对人工智能的算法性能和效果进行测试，通过定义一套测试的规范流程，最终得出测试结果。当算法迭代或系统升级，能够客观评判算法的升级或者迭代的方法是否取得了进步。

华楠：

目前什么样的人在从事数据标注，需要具备哪些专业知识?

李科：

从我们的人员架构可以看出，主要分为三类人员。

第一类是研发和算法人员。在训练算法的过程中，可能会需要百万、千万级的数据，我们需要开发专业的系统对数据快速准确的进行标注，同时通过算法辅助实现标注效率的提升。

第二类是项目管理人员。例如在标注1000万张人脸图片的项目中，项目管理人员需要在前期规划、项目实施、项目监控、项目交付等过程中把控项目进度，最终满足客户的交付需求。

第三类是广义概念的数据标注员。这其中包含了数据标注员、标注组长、质检组长，以及客户方可能会配备的验收员等，这些都是广义上被定义为数据标注的人员。

从我们的业务角度，可以概括的分为智能语音、计算机视觉、自然语言理解三大方向，对数据标注员也有着不同要求。例如在自动驾驶领域，主要分为2D、3D两个方面，在车载摄像头拍摄的街景照片中，标注员需要对车辆、行人、标识线、标识物、红绿灯等内容进行标注，我们会有针对性的对标注人员进行交通法规、汽车驾驶等相关培训。

但是在金融、医疗、法律等场景和更加细分和垂直的领域中，则要求标注人员拥有专业的知识储备。例如在CT图像中标注肺癌肿瘤生长点的位置具体，这就需要接受长时间培训的专业人员才能够满足标注的需求。

所以标注人员需要怎样的专业知识，也要根据需求具体问题具体分析。大部分的标注需求可以通过短期的培训达到标准，但针对特殊领域则需要长时间接受过专业的系统性培训才能够符合要求。

华楠：

最近大模型相关话题火热，模型背后其实就是数据，作为人工智能的三要素，利用数据训练形成算法很重要，如何通过数据标注和训练在场景中应用AI?要经历哪些阶段?

李科：

人工智能的发展主要得益于三个方面的发展，包括算力、算法和数据。正是因为海量的数据更好的满足了算法需求，所以才有了这一轮大规模的爆发和应用。我们有一句话叫做Garbage In, Garbage Out，如果输入的数据质量不高，输出的结果也会不尽人意。这句话从一定程度上表明数据质量的重要性，只有高质量、大规模、结构化的数据才能够提升人工智能系统的效果。

具体到人工智能系统层面来讲，通常分为两个阶段。第一个阶段是训练阶段：在这个场景下需要大量的训练数据，通过数据和算法得到模型。第二个阶段是推理阶段：在这个阶段会应用在训练阶段得到的模型，对新的数据进行推理。

例如在语音识别场景，首先我们在训练阶段设计出一个语音识别算法，然后通过使用大量的语音数据得到一个语音模型。接着进入到推理阶段，使用一句话输入到语音模型中，从而得到语音识别的结果，通常是一个文本。这就是整个AI应用的两个阶段。

具体到数据层面，通常我们会将数据的生产过程分为四大阶段：包括数据集设计、数据采集、数据清洗标注(也称为数据处理)，以及数据质检和交付。

在数据设计和采集阶段，还是用人脸识别举例，在设计阶段中需要根据应用的场景，设计采集人数、性别，采集光线、角度、场景，是否需要多人组合采集等众多内容，才能进行采集并得到原始数据。在数据标注阶段，对标注过程进行规范处理，形成结构化数据。在最后的质检和交付阶段，需要进行严格的质量把控，将海量优质且安全合规的数据交付给合作方。

华楠：

随着AI越来越多的走进大家的生活中，AI技术也在不断进化，AI 数据标注以及算法有着哪些技术革新?

李科：

从数据的角度来讲，现在的技术演进是非常清晰的，主要是系统化和智能化。

在系统化方面，我们自主研发了大规模的标注系统。能够实现项目管理、流程管理、人员管理、数据管理等功能，尤其是数据安全管理。

在智能化方面，我们也拥有自己的算法团队，将算法运用到数据的生产过程当中，提升标注的效率和准确度。例如质检过程中，通过算法快速甄别出不合格的数据，更好的进行反馈和修改。

华楠：

训练AI需要大量的数据支撑，您认为一个合格的AI至少需要使用多少数据进行学习才能达到真正的智能化?

李科：

针对不同的场景，会有不同的要求。

通过公开资料我们可以了解到，最近非常火的ChatGPT大模型，它在训练过程中使用的数据是5000亿个token(token为语言中最小的语义单位，在英文中等于一个单词，在中文中等于一个词语)。但在自动驾驶场景，即便只是一个车道线识别，我们通常给合作方提供的数据都是在几十万帧到上百万帧的级别。

而语音识别场景则不同，谷歌此前公布的一个语音识别模型，可以识别100多种语言，使用了约1200万小时的数据进行训练。但有时也可以使用数千或者数万小时进行单一语种的语音识别模型的训练。总结来说，还是要看数据所应用的具体场景具体分析。

华楠：

对于最近大热的ChatGPT我们会感慨到它的逻辑清晰，连续回答，像这样的模型训练量大概需要多少数据，才能保证他有这样的强大的能力?

李科：

ChatGPT在训练数据层面有两大关键点。

第一个是基于大规模的数据。像我刚才提到的5000亿个token这种级别的数据，进行大模型的初始训练。

第二个是运用了RLHF基于人类反馈的强化学习。在强化学习的过程中大概使用了1-3万数量级的人类反馈，正是通过人类反馈来进行强化学习，才可以使得ChatGPT最终呈现出非常好的效果。

华楠：

国内也有很多从事相关研发的企业，其数据能力如何?与ChatGPT还有多少差距?

李科：

首先ChatGPT的很多数据是从公开来源获取的，其中较大的数据集包括一个通用数据集约4000多亿个token，还有两个书籍数据集，以及Wikipedia数据集。

另外一个重要的数据，就是RLHF基于人类反馈的强化学习数据，这个数据集由OpenAI自行研发，通过很多规则处理数据。这个数据集并未公开，是ChatGPT最终达到这么好的效果的关键因素。

从目前国内的情况来看，获得公开数据集是相对容易的，但其自研的数据需要我们人工智能从业者共同探索，如何提升技术能力达到ChatGPT的最终效果。

华楠：

最后一个问题，目前传统的数据来源主要还是依靠大量的人工进行标注，在未来很长一段时间内，这种模式是否成为训练数据的主要来源?

李科：

首先，认为数据标注是一个纯手动标注的工作，是有一定程度误解的。我们是非常注重研发能力的企业，包括我们的平台、算法、项目管理等各方面，只有通过不断的技术创新才能够更好的提升整体的质量与效率。

其次，我个人认为在短期内，人工标注不太容易被取代。数据标注可以理解为将人类的知识教给计算机，计算机才能够进行相关识别。我们自己也常说，其实我们就像是在为人工智能制作教材，帮助人工智能学习判断和推理。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）