商业电台网,欢迎您访问本站!
您的位置: 首页 > 科技

阿里研发AI技术0.15秒识别拦截外语脏话图覆盖近30个语种

来源:商业电台网    发布时间:2021-09-27 12:24   

一年多前,阿里巴巴国际安全内容风险管控小二小河在用户交互场景中发现了一个特殊的ldquo来规避平台审核;脏话rdquo案例。

阿里安全高级算法工程师焦凡介绍,识别多语言字符,需要了解每种语言和字符的特点,以及影响算法识别的问题。每个书写系统都有自己的字体,不同的字体会导致同一字符的字体不同。例如,左下方的图片显示了汉字ldquordquo这个词;不同字体的表格,手写字符的字符变化。在右下方,显示了手写和打印的俄语字母之间的差异,红色方框表示某些字符的字形会有很大的变化。

ldquo字符连接导致字体变化,不同书写系统和读写顺序不同,会影响AI识别和语义判断。rdquo梵高说。例如,同一个单词在不同的语言中可能有不同的意思,ldquojammerrdquo在荷兰语中是ldquo后悔rdquo意思,但在英语中是ldquo信号屏蔽器rdquo,这可能涉及违规。

ldquo以前没有多语言识别功能的时候,如果我们直接截取这个口语词,可能会造成lsquo错杀了。骂人模式识别也是如此,要根据语言来判断。rdquo小何说。

此外,还有骂人的图片来代替正常的角色顺序,对抗风控。如下图所示,即使字符顺序改变,人们也可以很容易地判断单词的含义,但这是ldquo攻击rdquo试图通过打乱字母顺序来欺骗机器识别。

当然,训练这样的多语言识别模型,解决各种对抗情况并不容易。技术团队既要保证良好的识别效果,又要尽可能提高计算效率和控制成本,解决训练样本和模型方案的问题。

其实骂人拦截只是多语言OCR识别技术应用的场景之一。阿里安全国际风险控制官肖文儿宣表示,在互动场景中,大部分非法信息都是垃圾信息。