2022爆火的AIGC,能给AI续命吗

AIGC 白皮书的发布引来大批参会同行的关注。不仅是人工智能领域的研究者,还有元宇宙领域的从业者:

“当时红杉资本那篇关于生成式 AI 的文章还没有出来,大家都还不知道 AIGC 是什么。这说明数字内容生成的重要性是行业共识。”

再紧接着,一切都很快:技术的突破带来应用的繁荣,Midjourney 在海外火起,文生图的热潮又让人们看到更多原先冷门的 AIGC 分支,如文本生成、视频生成、音乐生成,业内人士才惊觉,原来海外像 Jasper.ai 这样的公司已经在商业化落地上有成功的验证。

但无论人们接受与否,一个不可逆转的趋势已经在发生。

AIGC 的大航海时代已开启

1519 年,一支探险船队从西班牙驶出,由西而去,人类文明的大航海时代开启。

后来,全球化历史学家记载文明,总要提到一个叫麦哲伦的探险家,以及他最初航海的好奇心:地球是方的,还是圆的麦哲伦是地圆说的倡导者;如果地球是方的,就证明航海无法成功;而如果地球是圆的,那么他最终会回到原点。

1950 年,另一位叫艾伦·图灵的科学探险家也有相似的好奇:机器能否根据人的行为作出有意识的反应他提出了一个著名的检测方法,叫“图灵测试”,开启了人工智能的研究时代。

如今,AI 领域的研究者,在 AIGC 的技术探索中似乎也获得了相似的探索欲望与热情。他们想知道:机器是否能读懂人的思想与逻辑,从 0 到 1 进行创造p>

答案是:经过近十年的技术发展,他们认为可以,并且相信当前的 AIGC 探索已经到了工程化的阶段。

犹如麦哲伦航海,目的已经明确,航海的地图(理论与框架)也已初具雏形,接下来是要验证技术路线是否可以到达目的地。

以文生图为例。虽然 AI 根据文本描述画画的能力还不够完美,例如基于不同的文本提示(prompt)会输出质量不一的图像,对长文本的理解能力不足、会漏读关键词汇导致生成的图像不完成等等,但这些都是一个个具体的研究问题,被解决只是时间问题。

为什么说 AIGC 的地图已勾勒完成要归功于三方面:大模型、多模态与可控制。

2020 年,OpenAI 推出 1750 亿参数的预训练语言大模型 GPT-3,在国内外掀起千亿参数大模型的研究浪潮。

那时开始,AI 的语言表达和理解能力开始突飞猛进。也是从那时起,AI 开始能在很短的时间内写出不错的文章。

实际上,那时候海外就出现了一波专做文字生成的商业公司,如 Jasper.ai 与 Copy.ai。

这些公司开发了机器自动写作平台,用户输入关键字、AI 只需几分钟就能写成一篇逻辑与表达不输人类的长文,用于替代写作过程中的大量劳动,并能兑换出商业价值。

但由于 OpenAI 不对大陆和香港开放 GPT-3 接口,所以国内的 AI 研究人员很难用起来,文字生成的相关应用也没能在国内火起。

这两年,虽然国内也有许多大厂与高校下场研究中文大模型,但在开源上仍进展缓慢,导致大量的 AI 开发者止步于高昂的训练成本,限制了基于中文语言的 AI 应用开发。

在这一波 AIGC 中,AI 大模型在理解人类语言的能力上发挥了关键作用。

归功于大模型的发展,不仅文本生成的效果不错,基于文本的图像生成也较 GAN 时代有了极大的进步。

王超岳就告诉雷峰 ,在撰写《 AIGC 白皮书》时,其实他们内部有过纠结:标题是要写成“AIGC”(AI-Generated Content),还是写成“生成式AI”(Generative AI)p>

最后,王超岳把票投给了AIGC,因为 generative model(生成模型)是一个专有的学术名词,一般是描述模型对一个具体的分布进行拟合,比如 GAN。

但 DALL·E 2.0 所做的在某种程度上已经超出了对某一种数据分布的拟合,展现出了通用的图像生成能力。

举个例子,GAN 最知名的应用是人脸生成:模型去看海量的人脸照片,知道人脸是一种分布,然后学习到人脸的特征。

在 2014 年还没有能够生成高维数据图像的方法时,GAN 是一种很强的生成方法,但局限性也是本质的:

首先,它需要一个特定的数据集(比如人脸),泛化能力差。

比如,GAN 发布后被用于训练各种各样的人脸特效,但一个 GAN 无法训练出多种人脸特效,换另一种特效就要新训练一个 GAN;

其次,GAN 在通过文本描述控制图像生成上做的并不尽如人意,这很大程度限制了它成为一个可控的通用式结构。

而 OpenAI 发布的 DALL·E(和之后 DALL·E 2)是使用了通用模型:能够同时处理多项语言任务的语言大模型,加打通文字与图像两种模态的 CLIP 模型,控制图像生成的扩散模型,能够在保证真实性的基础上进一步产生概念与元素的组合,生成更加复杂的场景。

比如,人类制定要下图 3 的位置生成火烈鸟,AI 就真的在室外的玻璃边生成两只火烈鸟、并且有影子投映下来:

文字与图像的多模态研究大体可以分为三个阶段:

  1. 图文描述(让计算机描述画中的事情);

  2. 图文问答(给一张图片,问这个图片里的桌子上都有什么东西。机器人需要理解问题,再了解图片里都是些什么东西);

  3. 用一句话生成图片(让机器人通过一句话的描述作画)。

多模态的一个重要贡献在于数据源:它很好地提供了文本与图像成对的训练数据,这些数据也是帮助 AIGC 模型学习到认知的重要素材。

此前阶段一、二的代表应用分别有短视频平台上的 AI 生成电影解说、智能对话机器人,而到第三阶段,机器系统则必须理解人类语言与常识、物理世界运行法则等,否则无法进行由人控制的跨模态创作。

但 DALL·E、Midjourney 与盗梦师等产品都已经体现出理解人类与世界的突破。

大量的研究实验都表明,当模型足够大,训练的数据足够多,AI 能够逐步理解人类语言的抽象概念(如常识与规则)。

王超岳在读博时师从陶大程,他们团队就从深度学习理论出发,不止一次通过模型的容量分析证明,大模型在学习通用知识和理解泛化上有更好的表现。

这是之前的生成模型没有体现出来的能力。这也决定了AIGC 不光是生成,而是建立在认知与理解上的模型的应用生态。

当 AI 具备基础认知与理解,机器像人一样思考与创作,就不再是海市蜃楼的传说,而是一个正在发生的现实。

商业化:在沉默中爆发

现代 会的活动构成,本质是一串串的数字内容:语音、文本、图像、视频…而 AIGC 可以为创造这些内容提供了一个个基础元素。

实际上,AIGC(人工智能生成内容)一直存在,但直到今年才被国内的资本热捧,一是技术的成熟,二是原先专注于视觉 AI 商业化的资本扭头才发现,类似 Jasper.ai 这样的海外 NLP 公司开始大幅盈利了。

由于创造数字内容的优势,AIGC 技术在备受瞩目后也被过去一年追随元宇宙的狂热者们列为打造未来元宇宙的工具。

但噱头背后,更多 AIGC 的从业者相信,AIGC 能比元宇宙更快打造出下一代数字世界,一个完全属于 AIGC 的新赛道。

从图形学出发打造数字人是需要有一个真人作参考的,但 AIGC 在语音、文字与图像的生成上是从 0 到 1、前所未有。

以电影《无双》为例。AIGC 是张静初,图形学则是郭富城。

以文本生成为例。类似 Jasper.ai 这样的 NLP 公司在海外孵化了一种新职业,叫“ AI 灵魂写手”:

人类用户在 AI 文字生成平台上输入标题与关键字,AI 就会生成一篇很长的文章,然后人们再在写好的文章上进行修改,将修改后的文章卖给需要大量高质量的文章来做搜索引擎优化的公司,赚取作品出售与订阅 AI 产品的会员费之间的差价。

图像生成的盈利模式也如此:比如在海外,用户订阅了 Midjourney 的会员,用 AI 生成精美的图像后再将图片卖给类似 iStock 这样的图库,从中赚取差价。

这也使 Jasper.ai 等公司能够迅速获得市场份额。据 Jasper.ai 宣称,截至今年 9 月,他们去年的收入超过了 4000 万美金,今年预计会翻一倍,目前付费用户也达到了 7 万,估值 15 亿美元。

而距离 Jasper ai 成立,才不过 18 个月。

蓝振忠告诉雷峰 ,现在 AI 写出来的文章是具备很高的可读性的。

除了盗梦师之后,他们的一款文字生成工具“HeyFriday”虽然推出时间没多久,但在海外也已经有几千个付费用户。

高速的增长也出现在图像生成领域。数据显示,海外 AI 作画产品 Midjourney 推出不过三个月,注册用户已经超过 300 万。而据雷峰 独家了解,盗梦师推出不到两个月,生成的图像数量已经达到 1 千万张。

多位行业人士谈道:“说白了,互联 的核心是流量,流量的核心是内容。而 AIGC 的本质,就是一项生产内容的技术。”

这也意味着,相比上一代要与终端硬件相结合的视觉 AI,或世界观庞大的元宇宙,AIGC 的商业化落地更具体,投入成本更低、盈利更快。甚至一个更激进的观点是:AIGC 能够跑出背靠流量的、与现有互联 内容平台(如小红书、抖音)的体量相媲美甚至超越的“内容生成平台”。

先不谈取代,目前就有大量的设计师会使用 AIGC 产品来简化设计前草稿阶段的工作。张诗莹讲了一个建筑设计的例子:他们与一个建筑师合作设计了一座层高大约 25 米的交响音乐厅——

加入卖萌屋NLP、CV、搜广推与求职讨论群

9c41e27309efa59cdc7938fbac3a8116.png

[1]《人工智能生成内容(AIGC)白皮书(2022年)》

[2] https://multimodal.art/news/1-week-of-stable-diffusion

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树人工智能机器学习工具包Scikit-learn213231 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月25日
下一篇 2022年10月25日

相关推荐