论文链接:https://openreview.net/pdf=zNQBIBKJRkd
「追逐 SOTA 一种糟糕的做法,因为有太多混杂的变量,SOTA 通常没有任何意义,科学的目标应该是积累知识,而不是特定玩具基准的结果,」谷歌 Brain 团队的前成员 Denny Britz 在之前的一次采访中告诉 VentureBeat(https://venturebeat.com/2020/06/01/ai-machine-learning-openai-gpt-3-size-isnt-everything/)。「已经有一些改进措施,但寻找 SOTA 是一种快速简便的审查和评估论文的方法。像这样的事情根植于文化中,需要时间来改变。」
就他们而言,ImageNet 和 Open Images——来自斯坦福和谷歌的两个公开可用的图像数据集——在很大程度上以美国和欧洲为中心。在这些数据集上训练的计算机视觉模型在来自南半球国家的图像上表现更差。
即使北半球和南半球之间的太阳路径差异和背景风景的变化也会影响模型的准确性,相机模型的不同规格(如分辨率和纵横比)也会影响模型的准确性。天气条件是另一个因素——专门针对阳光明媚的热带环境数据集训练的无人驾驶汽车系统,如果遇到雨雪天气,其性能会很差。
麻省理工学院最近的一项研究表明,包括 ImageNet 在内的计算机视觉数据集包含有问题的「无意义」信 。对它们进行训练的模型遭受「过度解释」的困扰,这种现象是他们对缺乏细节的高置信度图像进行分类,以至于它们对人类毫无意义。这些信 可能会导致现实世界中的模型脆弱,但它们在数据集中是有效的——这意味着使用典型方法无法识别过度解释。
不可靠的数据集还导致模型使性别歧视招聘和招聘、年龄歧视广告定位、错误评分以及种族主义累犯和贷款批准长期存在。这一问题延伸到医疗保健,其中包含医疗记录和图像的训练数据集主要来自北美、欧洲和中国的患者——这意味着模型不太可能适用于代表性不足的群体。这种不平衡在商店扒手和武器识别计算机视觉模型、工作场所安全监控软件、枪声检测系统和「美化」过滤器中很明显,这些都放大了他们所训练的数据存在的偏差。
专家们也将面部识别、语言和语音识别系统中的许多错误归因于用于训练模型的数据集的缺陷。例如,马里兰大学的研究人员进行的一项研究发现,亚马逊、微软和谷歌的面部检测服务在年龄较大、肤色较深的人和不太「女性化」的人身上更容易失败。根据算法正义联盟的语音消除项目,来自苹果、亚马逊、谷歌、IBM 和微软的语音识别系统共同实现了黑人语音 35% 和白人语音 19% 的单词错误率。语言模型已被证明会表现出种族、民族、宗教和性别方面的偏见,将黑人与更多的负面情绪联系起来,并与「黑人对齐的英语」作斗争。
「数据从 络上的许多不同地方 [在某些情况下] 被抓取,并且 络数据反映了与霸权意识形态(例如,白人和男性主导地位)相同的 会层面的偏见和偏见,」加州大学洛杉矶分校 Bernard Koch 和雅各布 Jacob G. Foster 以及谷歌的 Emily Denton 和 Alex Hanna,他们是「减少、再利用和回收利用」一书的合著者,他们通过电子邮件告诉 VentureBeat。「更大的……模型需要更多的训练数据,而清理这些数据和防止模型放大这些有问题的想法一直是一个难题。」
2. 标签问题
标签(许多模型从中学习数据关系的注释)也带有数据不平衡的特征。人类在训练和基准数据集中对示例进行注释,为狗的图片添加「狗」等标签或描述风景图像中的特征。但是注释者带来了他们自己的偏见和缺点,这可能会转化为不完美的注释。
参考地址:
https://medium.com/syncedreview/data-annotation-the-billion-dollar-business-behind-ai-breakthroughs-d929b0a50d23
还有其他方法旨在用部分或完全合成数据替换现实世界的数据——尽管陪审团对合成数据训练的模型是否可以匹配其现实世界数据对应物的准确性尚无定论。麻省理工学院和其他地方的研究人员已经尝试在视觉数据集中单独使用随机噪声来训练对象识别模型。
理论上,无监督学习可以一劳永逸地解决训练数据的困境。在无监督学习中,算法受制于不存在先前定义的类别或标签的「未知」数据。但是,尽管无监督学习在缺乏标记数据的领域表现出色,但这并不是弱点。例如,无监督的计算机视觉系统可以识别未标记训练数据中存在的种族和性别刻板印象。
3. 一个基准问题
AI 数据集的问题不仅限于训练。在维也纳人工智能和决策支持研究所的一项研究中,研究人员发现 3,800 多篇 AI 研究论文中的基准不一致——在许多情况下,可归因于没有强调信息指标的基准。Facebook 和伦敦大学学院的另一篇论文表明,在「开放域」基准测试中,自然语言模型给出的 60% 到 70% 的答案隐藏在训练集中的某个地方,这意味着模型只是记住了答案。
在由纽约大学 AI Now 研究所的技术研究员 Deborah Raji 共同撰写的两项研究中,研究人员发现,像 ImageNet 这样的基准经常被「错误地提升」,以证明超出其最初设计任务范围的声明是合理的。根据 Raji 和其他合著者的说法,这不考虑「数据集文化」会扭曲机器学习研究的科学这一事实——并且缺乏对数据主体的关怀文化,导致恶劣的劳动条件(例如注释者的低薪)未能充分保护数据被有意或无意地清除到数据集中的人。
针对特定领域提出了几种基准测试问题的解决方案,包括艾伦研究所的 GENIE。独特的是,GENIE 结合了自动和手动测试,根据预定义的、特定于数据集的流畅性、正确性和简洁性指南,为人类评估员分配探测语言模型的任务。虽然 GENIE 价格昂贵——提交一个用于基准的模型大约需要 100 美元——但艾伦研究所计划探索其他支付模式,例如要求科技公司付款,同时补贴小型组织的成本。
AI 研究界也越来越一致认为,基准测试,尤其是语言领域的基准测试,如果要发挥作用,就必须考虑更广泛的伦理、技术和 会挑战。一些语言模型具有较大的碳足迹,但尽管人们普遍认识到这个问题,但尝试估算或 告其系统的环境成本的研究人员相对较少。
「研究人员应该考虑使用他们的数据集的不同方式……我们称之为负责任的数据集[管理],需要解决更广泛的风险,」他通过电子邮件告诉 VentureBeat。「一个风险是,即使数据集是为一个看似良性的目的而创建的,它也可能会被无意中以可能造成伤害的方式使用。该数据集可以重新用于道德上可疑的研究应用。或者,当数据集不是为这些高风险设置而设计时,它可以用于训练或基准测试商业模型。数据集通常需要大量工作才能从头开始创建,因此研究人员和从业人员通常希望利用已经存在的数据。负责任的数据集管理的目标是确保以合乎道德的方式进行。」
Koch 和合著者认为,人们和组织需要得到奖励和支持,以创建新的、多样化的数据集,以适应手头的任务。他们说,需要鼓励研究人员在像 NeurIPS 这样的学术会议上使用「更合适」的数据集,并鼓励他们进行更多的定性分析——比如他们模型的可解释性——以及 告指标,比如公平性(尽可能)和电源效率。
NeurIPS——世界上最大的机器学习会议之一——要求提交论文的合著者必须说明「他们的工作对 会的潜在更广泛影响」,从去年的 NeurIPS 2020 开始。这一进展喜忧参半,但 Koch 和合著者认为这是朝着正确方向迈出的一小步。
「[M] 机器学习研究人员正在创建大量数据集,但没有得到使用。这里的问题之一是,许多研究人员可能觉得他们需要包含广泛使用的基准来提高论文的可信度,而不是一个更小众但技术上合适的基准,」他们说。「此外,专业激励措施需要与创建这些数据集保持一致……我们认为仍有一部分研究界对伦理改革持怀疑态度,解决科学问题可能是让这些人支持改革的另一种方式机器学习中的评估。」
文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树OpenCV中的深度学习图像分类11281 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!