目录
- 1 扩散模型与AI绘画
- 2 中文语料的挑战
- 3 昆仑天工:AIGC新思路
-
- 3.1 主要特色
- 3.2 模型蒸馏
- 3.3 编解码与GPT
- 3.4 stable-diffusion
- 3.5 性能指标
- 4 体验中文AI绘画模型
- 5 展望
1 扩散模型与AI绘画
AI绘画发展历史始于20世纪60年代,当时人工智能研究者们尝试使用电脑程序来模拟人类的绘画能力。在随后的几十年里,AI绘画技术不断发展,并逐渐开始应用于艺术创作和商业领域。在20世纪80年代,AI绘画技术发展到了一个新高度,电脑程序能够根据人类绘画的风格进行自动创作。这个时期的AI绘画主要应用于绘画动画和游戏领域,例如电脑游戏《模拟城市》中的画面就是由AI绘画技术完成的。20世纪90年代以来,随着人工智能技术的进一步发展,AI绘画技术也不断创新。人工智能算法开始使用深度学习来完成更复杂的绘画任务,例如根据图片内容进行自动绘画。此外,人工智能绘画技术也开始应用于商业用途,例如根据用户需求生成定制化的插画或品牌图标。
目前,AI绘画技术已经发展到了一个新的阶段,算法可以使用大量数据进行训练,完成更复杂的绘画任务。在AI绘画突然爆火体验二次元画师NovelAI(diffusion)中,我们介绍了扩散算法,这个算法的基本原理是先将一幅画面逐步加入噪点,一直到整个画面都变成白噪声。记录这个过程,然后逆转过来给AI学习。AI看到的是什么全是噪点的画面如何一点点变清晰直到变成一幅画,AI通过学习这个逐步去噪点的过程来学会作画。
然而,爆火的NovelAI提供的绘画软件也有缺陷——只能使用英文关键词生成图像,而且必须本地的显卡支持。
2 中文语料的挑战
比起NovelAI的英文文本生成图像模型,中文语料带来的挑战可太大了!
-
中英文分词方式不同
这点很好理解,英文词句间存在天然的分隔空格,例如英文句子:;但是同样这句话的中文是,这要如何区分是三个词,可单独划分理解,而和却只能组合成词,所以如何正确的根据语义完成中文切分是一个挑战性的任务,一旦切词发生失误,会导致后续的文本处理产生连锁问题,给正确理解语义带来障碍 -
词性标注差异
英文中有大量中文所没有的词性——例如冠词、助动词等,这些词性的存在就好比关键词,给语义理解带来了很好的指引作用。而中文词性缺乏类似英文这样的明确规范,例如,这里的编程是名词,但在别的语境下却是动词 -
歧义性词语切分
例如就有2种分词方式表达了2种不同的含义:与 - …
最近ChatGPT不是很火嘛写代码、修Bug,甚至还想统治人类体验ChatGPT,国内同样也有一家企业正在向AI生成文本(AIGC)领域发力,解决中文NLP领域的诸多问题
国内领先的互联 企业昆仑万维逐渐在全球范围内形成了海外信息分发及元宇宙平台Opera、海外 交娱乐平台StarX、全球移动游戏平台Ark Games、休闲娱乐平台闲徕互娱、投资板块等五大业务,昆仑天工则是由昆仑万维集团与合作伙伴奇点智源推出的全系列AIGC模型与算法,AI生成能力覆盖图像、音乐、编程、文本等全模态领域。
由于知识的转移不受模型结构的限制,该方法具有很强的灵活性,因此,自
2015年,Hinton等人系统总结了知识蒸馏的概念后,知识蒸馏受到了国内外研究者的广泛关注并不断被后续的研究者所改进。目前,对知识蒸馏技术的分类方法中,按照迁移的“知识”的定义不同,可以细分为将尾层输出当作知识的蒸馏方法,将中间隐藏层特征当作知识的蒸馏方法以及把关系当作知识的蒸馏方法,其中关系又可继续细分为样本间的关系、 络层间关系等。
像这种大规模深度学习产品,预训练模型通常需要占用很大的空间,并且训练和推断时间也很慢;直接在实际产品或应用中使用预训练模型难以满足时间和空间需求;昆仑天工正是应用知识蒸馏技术在不损失或少量损失性能的基础上,提升推断速度。
3.3 编解码与GPT
编解码的概念广泛应用于各个领域,在 NLP 领域,人们使用语言一般包括三个步骤:
接受听到或读到的语言 -> 大脑理解 -> 输出要说的语言。
语言是一个显式存在的东西,但大脑是如何将语言进行理解、转化、存储的,则是一个目前仍未探明的东西。因此,大脑理解语言这个过程,就是大脑将语言编码成一种可理解、可存储形式的过程,这个过程就叫做语言的编码。相应的,把大脑中想要表达的内容,使用语言表达出来,就叫做语言的解码。在语言模型中,编码器和解码器都是由一个个的 Transformer 组件拼接在一起形成的
3.4 stable-diffusion
Stable diffusion是一个基于潜在扩散模型(Latent Diffusion Models,LDMs)的文图生成模型。具体来说,得益于Stability AI的计算资源支持和LAION的数据资源支持,Stable Diffusion在LAION-5B的一个子集上训练了一个Latent Diffusion Models,该模型专门用于文图生成。
Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10秒级别时间生成图片,大大降低了落地门槛,也带来了文图生成领域的大火。
4 体验中文AI绘画模型
最近卡塔尔世界杯正在进行,我们来试试用AI绘画生成风格迥异的足球
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!