阿里安全AI识别语义分析技术再获突破可快速拦截色情黑话

人阅读

2020-09-24 15:02:33

来源：极客网
相关关键词

近日，阿里安全宣布，面对“多人运动”“王者五排”等不断变异升级的黑话暗语，阿里AI鉴黄技术能力升级，可精准快速地进行识别拦截。这对人工智能技术的发展具有非常重要的意义，让AI引入知识后并不对原始语义产生曲解，正是训练智能AI模型需要重点解决的难题。

涉黄黑话变异升级难识别

在内容安全场景下，黑灰产通常会利用黑话来绕开检测引擎，比如会出现这种语句“小哥哥，要不要来我们这里多人运动啊？”“大号玻璃过滤彩珠大水瓶玻璃水壶全套配件到手即用”。

“这对人工智能技术带来了非常大的挑战。”阿里安全高级算法专家开阳表示，目前谷歌发布的BERT自然语言处理模型已经在文本理解领域取得了突破性进展，但在识别上述黑话时仍难以发挥作用，尚不能撕掉黑话的“伪装”，辨别其指代“色情、毒品”的本来含义。

对此，开阳解释，技术和预训练语言模型有一定局限性，经过大量公开语料进行学习训练后，模型能理解字、词、句之间的语义关系，比如判断“足球”跟“多人运动”属于同类话题；“水壶”“器皿”和“烧水”属于同类话题。

“‘多人运动’等黑话通常背后由某个特定事件造成，这些事件比较随机，也无规律可循。”开阳介绍称，这样的语料难以积累，加上占比极低，建立预训练模型变得不太容易。

AI技术升级可理解文字语义

那么，鉴黄机器人能否接收到“多人运动”黑话背后的事件信息，从而给出更精准的判断？

开阳称，阿里新一代安全架构核心AI技术可以做到这一点。他介绍，如果过去的鉴黄AI只停留在识别直观的“图片、字符串、语音”这些表层信息上，升级之后的鉴黄AI则可以理解字符串背后的深意。如果看到“小哥哥，要不要来我们这里多人运动啊？”这样的语句，AI经智能分析后可识别出这是一条色情信息。

“升级后的AI鉴黄师增加了基于知识图谱的识别黑话的能力，将人工经验知识引入，让机器智能与人工经验更好地结合，大大提升了文本理解与语义识别的能力。”开阳介绍，这也是技术升级后的最大亮点，只需要把新的黑话知识添加到知识图谱中就可生效，发现舆情事件导致的变异时间可能在小时级，但识别只需几十毫秒。

简单而言，就是以热点事件为中心，围绕事件本身，将相关联的人物、事件、特定的词语绘成一张关联图谱。以“多人运动”为例，将出轨事件新闻作为核心，关联该事件的男女主角、事件引发的热词“多人运动”“王者五排”“群P”等。

图片1.jpg

图说：以罗XX事件为例打造的关联图谱

由于升级后的技术可识别更隐晦、内涵的风险内容，AI技术除在鉴黄领域大有可为外，还能大大提升与其他黑灰产变异升级的对抗能力。“我们的模型能针对新事件快速感知，基于事件发掘新关联词，并构建知识，及时为新风险识别提供能力。”开阳说。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）