“知物由学”是 易云易盾打造的一个品牌栏目,词语出自汉·王充《论衡·实知》。人,能力有高下之分,学习才知道事物的道理,而后才有智慧,不去求问就不会知道。“知物由学”希望通过一篇篇技术干货、趋势解读、人物思考和沉淀给你带来收获的同时,也希望打开你的眼界,成就不一样的你。当然,如果你有不错的认知或分享,也欢迎通过邮件投稿:zhangyong02@corp.netease.com
导读:Facebook在过去一年面临了一系列令人眼花缭乱的指控和丑闻。Facebook CEO Mark Zuckerberg表示人工智能将帮助解决该公司平台上存在的问题,那么依靠人工智能真的能“治好”Facebook上的内容问题吗/p>
2017年8月25日凌晨,缅甸罗兴亚穆斯林少数民族一个衣衫褴褛的叛乱组织袭击了该国西北部的军事哨所,造成12人死亡。安全部队迅速采取 复行动,焚烧村庄并进行了持续数周的大规模屠杀。随着罗兴亚有数千人死亡,缅甸军方领导人开始在Facebook上发帖。
肉体探测器
96%的数字看似很成功,但仍然有很多裸体图片和视频通过了Facebook的算法。2018年第三季度,他们删除了3080万张裸体或性行为的图片和视频:这意味着算法没有捕捉到130万张这样的图像。事实上,据Facebook估计,截止今年9月的12个月里,浏览裸体或色情内容的比例几乎翻了一番,达到每10000次浏览中约9次。Facebook在其最新的 区标准执行 告中表示:“Facebook上出现了更多的裸照,我们的系统未能及时捕捉到所有裸照去阻止浏览量的增长。”有很多信息被发现时可以看到的,但没有被发现或举 的信息量的大小是不可知的。
解码语言
Facebook应用机器学习小组的工程师Srinivas Narayanan对此表示赞同。他为他的团队在扫描色情和仇恨言论的系统上所做的工作感到骄傲,但是人类水平的准确性和细微差别仍然是一个遥远的目标。他表示:“我认为,我们仍远不能解决这一点。”“我认为机器最终能做到,但我们不知道如何做到。”
在其他地方,Facebook正试图避免训练数据问题。负责全球运营的副总裁Justin Osofsky表示,缅甸发生的悲惨事件给我们上了一课,那就是该公司需要更好地利用人工和软件来理解不同市场的语言和文化。
对于Facebook来说,训练多种语言文本解码算法的传统方法极其昂贵。要发现英语中的生日祝福或仇恨言论,你需要千个样本,最好是数百万个样本。每次你想要扩展到一种新的语言,你都需要一组新的数据,这对Facebook这样规模的公司来说是一个重大挑战。
作为一种解决方案,Facebook正在调整为通用语言(如英语或西班牙语)构建的系统,以适用于较不常用的语言(如罗马尼亚语或马来语)。一种方法涉及使用自动翻译。Facebook已经能够通过将帖子转换成英语来抑制包括匈牙利语和希腊语中的clickbait(标题党),这样就可以将它们送入受过内容培训的clickbait探测器。它还可以通过翻译英语为不太常用的语言提供新的培训集。另一个项目涉及创建基于语言间深层相似性的多语言系统,这意味着一旦用英语训练任务,他们也可以立即用意大利语做同样的事情。Narayanan说:“这些多语言方法确实有助于我们加快将人工智能应用于跨语言完整性问题的能力。”
该项目还有助于说明Facebook面临挑战的规模。到目前为止,该公司的多语言变通方法还不能适用于公司拥有相对较小数据集(如缅甸语)的语言。豪萨语(Hausa)也面临着同样的挑战。豪萨语是西非一种用于反穆斯林仇恨言论的语言,当地警方上月告诉BBC,这种语言已导致十几起谋杀案。Facebook说,它正在扩大与尼日利亚事实核查组织和非政府组织的关系,并利用机器学习来标记仇恨言论和暴力图片。
被邀请展望未来时,Facebook首席技术官Mike Schroepfer承认,防止此类事件的发生是不可能的。他说:“我经常问自己的一个问题是,其他同样复杂的工作有100%的安全记录吗他说:“我想不出一个。飞机,汽车,太空旅行,执法。你知道有哪个城市的犯罪率是零吗
尽管如此,他对Facebook的发展道路仍持足够乐观的态度,想象有一天,它的算法会非常有效,欺凌和仇恨言论几乎消失了。
如果你是中小创业公司,在内容安全上觉得投入成本过高,无运营经验,也担心相关政策理解不到位,更担心投入了那么多没效果,那么你可以尝试用下易盾的内容安全业务。
点击一键接入专业的易盾内容安全解决方案。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!