选自GitHub Copi-lot inves-ti-ga-tion
机器之心编译
Copilot是开源 区的?
作为一名开发者,或许你不介意 GitHub Copilot 未经询问就使用了你的开源代码。
但如果,Copilot 逐渐抹去整个开源 区,你会有什么感受?
近日,程序员 Matthew Butterick (同时他也拥有作家和律师身份)在个人博客中控诉了 Copilot,并宣布开展诉讼调查:
那么,Copilot 与传统的自动补全功能有什么不同?
Copilot 由 Codex 提供支持,这是一个由 OpenAI 开发并授权给微软的 AI 系统。(尽管微软也被称为。)
Copilot 会根据用户输入的文本 prompt 提供建议,一般可用于提出小的建议,但微软强调 Copilot 能够建议更大的代码块,例如函数的整个主体。
但是其底层 AI 系统 Codex 是如何训练的呢?据 OpenAI 称,Codex 接受了的训练,包括 GitHub 上的代码。微软自己含糊地描述为。但 Copilot 研究员 Eddie Aftandilian 在最近的播客中证实,Copilot 是。
Copilot 有什么问题?
训练中的法律问题
因此,那些希望使用开源软件的人必须做出一个选择,要么遵守许可证上规定的义务,要么使用从属于的代码(如版权法下的)。
微软和 OpenAI 已经承认 Copilot 和 Codex 是在 GitHub 上公开 repo 中的开源软件上训练的。那么,他们选的是哪条路呢?
如果微软和 OpenAI 选择在每个 repo 的开源许可下使用这些 repo,那么他们将需要发布大量的 attri-bu-tion,因为这几乎是每个开源许可的最低要求。然而,我们现在看不到任何 attri-bu-tion。
因此,微软和 OpenAI 必须找到一个的理由。GitHub 前 CEO Nat Fried-man 在 Copilot 的技术预览会上曾经说过,
事实真就如他所说吗?这是一个法律问题,不是谁说了就算的。当然,微软、OpenAI 和其他研究机构一直在支持的论点。Nat Fried-man 曾进一步断言,关于的是存在的。但是软件自由保护组织(Software Freedom Conservancy,SFC)不同意他的观点,并要求微软提供证据来支持其立场。SFC 负责人曾透露:
我们在 2021 年 6 月私下询问了 Fried-man 和其他微软、GitHub 的代表,要求他们为 GitHub 的公开法律立场提供可靠的法律参考…… 但他们什么都没有提供。
为什么微软不能为他们的立场提供一些法律依据?因为 SFC 是对的:他们根本就没有依据。尽管一些法院已经考虑了相关问题,但目前还没有一个美国的判例直接去解决 AI 训练的问题。此外,那些涉及的案例也是平衡了多重因素。即使法院最终裁定某些类型的 AI 训练是的(这似乎是有可能的),它也可能将其他类型的训练排除在外。到今天为止,我们还不知道 Copi-lot 或 Codex 在这个范围内处于什么位置。微软和 OpenAI 也不知道。
使用中的法律问题
我们还不能说最终将以何种方式应用于 AI 训练。但我们知道,这一发现完全不会影响 Copi-lot 用户。为什么?因为他们只是使用 Copi-lot 来给出代码。那么,这部分代码的版权和许可状态是怎样的呢?
微软将 Copilot 的输出描述为一系列代码。微软在这些建议中。但同时,微软也没有对这样生成的代码的正确性、安全性或扩展出的知识产权问题提供任何保证。一旦你接受了 Copilot 的建议,所有这一切都成了你的问题。
你要对你代码的安全性和质量负责。我们建议您在使用由 GitHub Copilot 生成的代码时采取与使用其他任何非本人所写代码时相同的预防措施,包括严格的测试、IP 扫描和安全漏洞跟踪。
这些建议的代码会有什么问题?已经有 Copilot 用户指出,Copilot 可能会被诱导从可识别的 repo 中一字不差地复制代码。前段时间,得克萨斯农工大学教授 Tim Davis 给出了很多例子来说明 Copilot 确实逐字复制了他的代码。
Copilot 对开源 区意味着什么?
随着时间的推移,这个过程将使这些 区变得贫乏。用户的注意力和参与度会逐渐转移到 Copilot 的围墙花园,远离开源项目本身——远离他们的 source repo、他们的 issue track-er、他们的邮件列表、他们的 dis-cus-sion board。这种能量的转变对于开源来说将是痛苦的、永久的损失。
微软云计算执行官 Scott Guthrie 最近承认,尽管微软 CEO Satya Nadella 在收购 GitHub 时做出了的乐观承诺,但微软一直在推动更多 GitHub 服务(包括 Copilot)进入其 Azure 云平台.
Matthew Butterick 表示,他们并不是无缘无故向 GitHub 发起诉讼。他认为,发布开源软件的一大好处是:围绕我们工作的用户、测试人员和贡献者 区。。
Copilot 向开源软件引入了更的界面:只给我想要的(just give me what I want)!使用 Copilot,开源用户永远不必知道谁制作了他们的软件,永远不必与 区互动,永远不必做出贡献。
Matthew Butterick 认为,Copilot 的围墙花园与开源是对立的,且存在危害。因此,这也是对 GitHub 在被微软收购之前所代表的一切的背叛。如果你出生于 2005 年之前,肯定会记得 GitHub 的声誉是建立在其为开源开发人员提供好东西和培育开源 区的基础上的。相比之下,Copilot 是这个想法的多重疯狂反转。
换个角度说,也许你是 Copilot 的粉丝,认为 AI 是未来。首先,这里反对的不是一般的人工智能辅助编程工具,而是微软对 Copilot 的具体选择。我们可以很容易地想象一个对开源开发人员更友好的 Copilot 版本——例如,参与是自愿的,或者编码人员有偿为训练语料库做出贡献。目前看来,尽管自称热爱开源,但微软没有选择这些选项。其次,如果你发现 Copilot 有价值,很大程度上是因为底层开源训练数据的质量。Copilot 从开源项目中汲取生命,最直接的影响将是让 Copilot 变得更糟。
Matthew Butterick 表示,
原文链接:https://githubcopilotinvestigation.com/#what-is-github-copilot
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!