2020第一季度,Facebook公司删掉了960万句“脏话”

图片来自于《亲爱的数据》

文丨《亲爱的数据》出品人 谭婧

互联 上每天产生多少句脏话?这是一个谜。但是,从Facebook公司2020年第一季度的《透明度 告》里,可以窥到一些面貌。

自2018年5月以来, Facebook公司以季度为周期发布 告,解释其辛苦的幕(zi)后(jin)工(tou)作(ru)。在2020年第一季度,公司更是成功删除960万条“脏话”内容。

这是一个创纪录的数字,高于2019年第四季度的570万条,也超过了2019年第三季度的700万条。

《亲爱的数据》出品

?

“脏话”是简称,直白的理解是,偏激、仇视性话语(Hate Speech)。民间脏话、方言脏话、描述部分人体器官、人身攻击、种族歧视、性别歧视大抵都包括在内,如果有没有想到的,还望海涵。

每天,打开手机APP,就看见键盘侠“口吐芬芳”,令人大倒胃口。然而,互联 上脏话的量级,人工删除是删不过来的,而且还会误判。Facebook公司的方法是,用人工智能技术狙击。

但凡审查,就会有漏查。Facebook公司《透明度 告》有一个缺陷,就是它没有提漏查的程度。

让我们看到真善美的存在,也要看到假恶丑如何被干掉。

在Facebook公司第一季度删除的960万个帖子中,软件系统检测到88.8%(在用户看到信息并举 之前)。这表明该算法用机器标记了850万个“脏话”帖子,比上一季度的460万个增长了86%。

2020年第一季度,除了病毒蔓延,“脏话”也在蔓延。

Mike Schroepfe,自2013年3月以来一直担任Facebook公司的首席技术官。他借《透明度 告》发布的机会,重点打了一轮人工智能技术的广告,宣传了该公司自然语言处理技术的进步。

他说:“我们的语言模型变得更大,更准确,更细微了。能够发现细致微妙的东西。”

可惜,Schroepfer并没有解释说明这些系统审查的精确程度,只是说Facebook在部署系统之前对其进行了广泛的测试(测试机器误判的情况)。

毕竟一个把正常表达识别错误的机器,也很让用户恼火。

Mike Schroepfe引用了新 告中的数据,这些数据表明,尽管在最近的25 – 130万条中,用户更经常地对删除内容的决定提出申诉(有可能是骂骂咧咧习惯了,突然被删,很是不服气),但后来执意恢复的帖子数量有所减少(习惯了)。

Facebook的数据并未表明仇恨言论在其算法 络中漏失了多少。该公司的季度 告估计了Facebook规则禁止的某些类型的内容的发生率,但没有“脏话”内容。新闻官宣显示,自2019年夏天以来,暴力帖子数量有所下降。Facebook公司“仍在制定一项全球指标”。

缺失的数据掩盖了 交 络的脏话言论的真实规模。

西雅图大学副教授凯特琳·卡尔森(Caitlin Carlson)说道:“与Facebook庞大的用户 络以及用户对令人不安的内容的观察相比,删除的帖子数目(960万条)看起来太少了。“

教授认为,960万条“脏话”,这一数据还不够真实?

《亲爱的数据》出品

无独有偶,卡教授在2020年1月份发布了一项实验结果。她和一位同事收集了300多个Facebook帖子(样本),这些帖子明显违反了规则,实验人员用服务工具进行了举 。追踪结果显示,最终只有大约一半的帖子被删除。

卡教授这一实验结果,在挑战Facebook。同时,她也发现,同样是“口吐芬芳”,算法对种族歧比在歧视女性方面更为严格。不知道Facebook高管桑德拉看后作何感想。

2020年5月,Facebook公司同意支付5200万美元与内容审查团队的员工达成和解。原因很惊人,审查帖子导致他们患上了精神创伤,已获法庭鉴定。外媒The Verge之前详细 道了这一消息。?

在美国圣马特奥高等法院提出的一项初步和解中,Facebook公司同意支付赔偿金,并在他们工作期间给予更多帮(tong)助(qing)。”

天天看这些脏话的人,都受了内伤。当然,这得算工伤。

公司协调外部力量参与的力度很大。毕竟罚金有点高,这样下去,扎克伯格就会比亚马逊公司的贝佐斯穷多了。

卡教授继续与Facebook公司正面硬刚。她表示,Facebook公司的披露似乎表明该公司可以自我监管,但 告有缺陷。

她说:“要与公司进行对话,我们需要数据。”

当被问及为何不 告“脏话”言论泛滥情况时,Facebook公司发言人指出,该 告的衡量标准“正在缓慢扩展,以覆盖更多的语言和地区,以考虑到文化背景和个别语言的细微差别” 。

定义和检测“脏话”是Facebook和其他平台面临的最大 会和技术挑战之一。

在全球多元文化背景下,即使是人类分辨内容,也是需要花一番功夫的。举个例子,有抖音 教青岛方言表扬人用“赤丝”,请自行体(bai)会(du)一下。

自动化是很棘手的,因为人工智能距离人类对文本的理解还有很长的路要走,理解文本和图像共同传达的微妙含义的算法的研究才刚刚开始。

Schroepfer说道:“机器学习算法在语言学研究的帮助下,Facebook已经升级了检测算法。许多高科技公司正在对其处理语言的软件系统(例如谷歌的搜索引擎)进行改造,提高用算法解决诸如回答问题或澄清歧义等语言问题的能力。”

他强调:“(这是)重大改进。”

Schroepfer还明确指出,这些改进并不能使技术达到完美。?

Facebook表示,它已经创建了超过10000个仇恨语音模因(模因是许多人在互联 上相互发送的东西,如视频,图片或短语)的集合,这些模因结合了图像和文本,并激发新的研究。该公司将向研究小组提供10万美元的奖金,激励这些研究小组开发出能够最好地发现可恶的模因与良性内容相混合的开源软件。

美国还在对 交媒体内容中的“脏话”监管采取放任不管的态度。

德国2017年通过了《 络执法法》(NetzDG),该法要求拥有或超过200万用户的 交媒体公司必须删除或阻止访问 告的内容,因其违反了德国刑法对仇恨言论的限制(《 络实施法》,2017)。

公司必须在收到通知后的24小时内删除“明显的仇恨言论”,否则将面临5000万美元的罚款(Oltermann,2018年)。

值得一提的是,在2019年恐怖主义袭击了新西兰的两座清真寺之后,全球领导人与脸书、谷歌、推特等其他公??司高管会面,共同制定了一套名为《基督城召唤》(Christchurch Call)的全球反恐准则,制定针对极端、暴力,以及仇视性言论。

更值得一提的是,美国没有签署承诺。

《亲爱的数据》出品

?

远在海外的抖音国际版(Tiktok)也发布了《透明度 告》(2019年12月),只有五页纸。

别问为什么,被逼的。

互联 公司有无可比拟的力量来塑造人类话语世界,偏激言论遍地开花,其处理和删除情况却鲜为人知。《透明度 告》也适用于新浪微博等国内互联 平台公司。敢问一句,现在是什么样的世道?先进技术和生产力都用来和“脏话”做斗争了。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年4月10日
下一篇 2020年4月10日

相关推荐