数周以来,没有什么比人工智能图像合成(AI绘画)更火爆的大众AI应用了。谷歌Imagen和Stable Diffusion等人工智能绘画程序已经成了数字艺术家为之痴迷的工具。这些人工智能绘画程序通常使用一些流行的开源图片大数据集,例如LAION-B,对人工智能图像合成算法进行训练。
近日,一位名为Lapine的艺术家通过一个Have I Being Trained的 站反向查询LAION-B图片库,惊讶地发现自己的面部病例照片居然出现在训练数据集中,Lapine在推特上晒出了这些医学照片的使用协议,表明这些照片仅供医生使用,不得公开泄露:
显然,在拥有Lapine病例照片的外科医生去世后,这些照片不知何故从诊所泄露,被搜罗到了人工智能图像合成算法训练数据库中,并被“烘培”到无数人工智能合成的图像中。
例如,经过AI训练过程,LAION数据集中的一些图像被用来训练人工智能图像合成模型Stable Diffusion的流行功能——“从文本描述生成图像”。由于LAION是一组指向互联 上图像的URL集合,因此LAION本身并不托管图像。相反,LAION表示,当研究人员想要在项目中使用这些图像时,他们必须从不同的位置下载这些图像。
LAION数据集充满了从互联 收集的潜在敏感图像,如上图所示,现在正集成到商业机器学习产品中。
Lapine的一位朋友在LAION的Discord服务器频道#safety-and-privacy询问如何从场景中删除私人图像。LAION工程师Romain Beaumont回答说:“从互联 上删除图像的最佳方法是要求托管 站停止托管它,LAION没有托管任何这些图像。”
显然,LAION在利用“元数据”来钻法律空子推卸责任,因为在美国,从互联 上抓取(索引)公开数据似乎是合法的。不过LAION的 站确实提供了一个表格,欧洲公民可以请求从其数据库中删除信息以遵守欧盟的GDPR法律,但前提是个人照片与图像元数据中的姓名相关联。幸亏有了PimEyes这样的服务,隐私遭到侵犯的个人将人脸照片与本人姓名关联变得非常容易。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!