教你如何用机翻软件开拓自己的青青草原

继为语文书上的各位名家豪杰担任服装、造型设计师后,热心 友开始志愿使用各类在线翻译软件「诠释」古人作品、热门歌曲等语段,美名其曰:生草翻译。下图即为新年经典曲目「恭喜发财」经过火山翻译「生草」的效果:

注:「生草」一词源自日语「草生える」(长草了),日语「笑」的首字母「w」常在弹幕中被用于表示「好笑」之义,由于一排「w」在弹幕中颇有青青草原的气息,便开始有人用「草生える」形容幽默有趣的现象。

想要不花一分钱让机器翻译软件为你的视频种下青青草原吗?你只需要完成两个步骤!

1. 选择一篇你想要「诠释」的文段(注意是文段,不是一个词或一句话)

2. 按照中文、阿拉伯语、德语、英语、西班牙语的顺序对语段循环翻译20次(或以上)

最后你将会得到一篇AI倾情奉献的、自带故事情节的魔幻现实小说(或散文)~


如果只是想知道生草教程的朋友可以关闭本篇推送了,当然我知道优秀的你更想了解 AI 这令人赞叹的想象力从何而来。

1. 翻译原理让AI「木有感情」

机翻软件的「胡言乱语」是其遵循翻译规则的结果。

现今机器翻译使用的技术主要为「神经机器翻译(NMT)」。在它之前广泛使用的「统计机器翻译(SMT)」技术是在大量双语平行语料基础上建立一个翻译模型来完成该语对的翻译过程。(注:平行语料:由原文文本及其平行对应的译文文本构成的语料)

SMT翻译过程好比查阅词典:由语料构建而成的语料库可以被视为一本「词典」,「词典」里一个词会有多个译文选择,SMT建立模型来算出各个选择与原文词配对的概率,优先考虑使用概率最大的词。在此之后SMT将刚刚选出的概率最大的词与原文对应词一一对齐,再调试句子中语法、词与词之间的顺序,获得最终翻译结果。

图中源语言为英语,目标语言为德语

如上图所示:通过模型计算出 the 对应 das 的概率为0.58,对应 haus 的概率为0.02,所以我们可以初步确定 the 对应的译文为 das。其他单词以此类推。

对齐、调试的过程

NMT模型在SMT模型的基础上进行优化。在 NMT中,翻译过程可以用一个「编码→解码」的模型来实现。NMT通过使用编码器将文字转化为固定的向量,从而将源语言表示为连续空间的形式,再使用解码器把向量逐步解码。

这个过程好比为小女孩编辫子:「原始输入」是她乌黑顺滑的长发,在经过「编码器」这双巧手的「编织」后变成辫子——「向量」,另一双巧手「解码器」把「向量」辫子解开,就得到了波浪式的卷发——「翻译结果」。

向量的表示方法可以让语义相似的词在语义空间中有相似的表示,从而使语义相似的句子被映射在同一个空间里。

以下图为例:

Tom is loved by Lily 和 Lily loves Tom 这两个句子的语序和单词组成是不一样的,但是它们的语义相似,所以被映射在同一个空间。

而 Lily loves Tom 和 Tom loves Lily 的单词组成是一样的,但是它们的语序差异带来了较大的语义差别,因此它们被投射到不同的空间。

不同于线性的SMT模型,NMT使用连续空间表示语言,从而增强语义相似的文本之间的关联性,改善了SMT模型中数据稀疏性的问题,提升翻译质量。NMT在短短的两三年内便取代了SMT成为商业机翻系统的主流模型。

2. 语料库稀缺让AI「难为无米之炊」

杰出钢琴家如果只将一首曲子作为训练曲目,很难练就扎实的演奏技法。同理,训练NMT模型需要丰富的平行语料库,即源语言和目标语言的语料对作为训练数据。要想训练出优秀的翻译系统,大量高质量的语料储备是不可或缺的。

问题来了:不同于拥有丰富语料的大语种、新闻,小语种、古文的语料资源是长期处于稀缺状态的。

首先,小语种之所以被冠名「小」,古文之所以被冠名「古」,说明它们的通用程度是相对较低的,使用这种语言/表达方式的地区覆盖率小、人口少,当然相关语料也难以多得,在某些特殊领域场景中(如 交 络或小说)该语种的语料资源的收集难度可想而知。

小语种、古文较低的传播率也进一步导致了其市场需求的低迷,用途不广的领域很难获得较多的研究投入,渐渐淡出人们的视野,长此以往其相关资源也无从追溯。

这些语料资源的稀缺会让翻译模型在遇到一些偏门领域语句或较长语句时失去参照,从而开始硬着头皮翻译,翻译效果如同在大学四六级考场上做翻译题的你:

就连人类这种高级生物都会遇到以上情况,AI 当然也在劫难逃。此外,参考人类口口相传后真相的扭曲程度,经历多种语种接连20次对逐渐扭曲的译文进行叠加翻译后,AI最后给出奇葩的翻译结果也不是太难理解了(AI:我太累了)。这也解释了为什么我们在给机翻软件「松土施肥」的时候需要尽量使用小语种去翻译,或者选择文言文、歌曲等比较偏门的资源作为原始文本。

3. 大数据学习让AI「乱」加逻辑

可能有朋友会觉得奇怪,AI 强行生硬翻译就算了,为什么还常常「口出狂言」,往译文乱加逻辑和人名?

现今业界所有线上AI 翻译系统均以句子为单位进行翻译。为了保证翻译单位的流畅度,AI翻译会保证每句话的逻辑性与可读性,而它保证的方法就是运用自己的看家本领:「大数据学习」,即参考语料库中频繁出现的词,在面对「分崩离析」的句子时及时将它们填充进去。

使用这种方式也只能保证这句话单独存在的时候是通顺的,是符合近期人类常用表达的,如果将句子放到上下文或语段的语境中,就会出现让人啼笑皆非的现象:

翻团君:「对不起,比鬼畜我还真比不过你」

恶搞归恶搞,火山翻译等机器翻译软件仍然能够保质保量完成正常任务。在对话交流、视频制作、线上会议、线上直播等拥有较丰富语料的场景,机器翻译软件仍然能够给出较为准确的翻译效果。

毕竟日常需求并不会出现把语段来回翻译20次的情况,机器翻译实为高效率、低成本的一个选择。而长草了的火山翻译,也仍是一座致力于「让翻译更简单」的火山。

  • 现今火山翻译提供了火山同传、火山翻译API、火山翻译Studio、浏览器翻译助手等一系列矩阵产品,在视频、会议、直播翻译等场景都有出色的翻译表现;
  • 火山翻译掌握的翻译能力也获得了业界认可,在2020年国际机器翻译大赛(WMT2020)上获得多个关键语向翻译项目竞赛的冠军
  • 火山翻译精益求精,推出了「多语言翻译新范式mRASP」、「高性能序列推理引擎LightSeq」和「镜像生成式翻译模型MGNMT」等前沿翻译技术
  • 「火山翻译」希望成为你辛勤工作时的好帮手,好伙伴。在此也诚挚邀请大家花一两分钟用「火山翻译」开拓自己的青青草原,说不定会有更大的惊喜呢~快点击「了解更多」试试吧!

    声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

    上一篇 2021年1月19日
    下一篇 2021年1月19日

    相关推荐