搜狗也推AI翻译应用了,人工智能何时才能取代人工翻译?

随着人工智能越来越热,人们日常生活中的各种需求正在一点点让渡给机器人来完成。比尔盖茨曾在推特上连发14条推文,强调未来人工智能的影响将会覆盖 会的方方面面,建议大学生毕业从事和AI相关的职业。扎克伯格在哈佛的演讲中提到,未来将会有数以百万计的工作被人工智能取代。普华永道的调查显示,未来15年美国38%的工作极有可能被人工智能取代。

人们一边担忧着人工智能对人类未来的影响,一边在加速推进人工智能。与之前历次对机器的恐惧一样,为了生产力提升的需要,趋势无法拒绝。当前人工智能发展的早期阶段,开始从声音、文字、图像这些层面开落地,比如智能音箱、智能语音助手、写稿机器人、图像识别等等。世界联系越来越紧密,翻译工具也成为人们寻求利用AI打破语言壁垒的入口。

不少翻译工具已经开始结合人工智能,有的厂商推出了AI翻译硬件产品,例如科大讯飞的晓译翻译机。但是根据移动互联 条件下大多数消费者的使用和消费习惯,根植于智能手机的APP相对于硬件来说无疑是更大的入口。比如美国的谷歌、韩国的NAVER、中国的百度、有道人机翻译等等。

6月12日,搜狗搜索召开了一场主题为“打破信息的边界,和世界沟通”的产品体验季分享会,同时发布了创新产品搜狗翻译App。据了解,搜狗翻译App是基于深度学习的神经 络机器翻译框架(NMT),能理解上下文语境,结合搜狗搜索原有的积累,让翻译更加精准。此外,在古诗词、成语以及 络流行语等方面也有不错的表现。结合语音识别、图像识别,支持供语音、对话、拍照、文本翻译等功能。

谷歌、百度、有道、搜狗、NAVER都有各有所长,比如有的在学术方面有优势,有的能够通过英文搜索频道积累数据,有的则更侧重于理解 络用语,随便找几个例子进行测试并不能全面严谨地说明哪个工具比哪个工具更好,在实际应用过程中,每一款工具都会出现各种各样的语病。人工智能与翻译的结合,重点在于当前渐渐成为主流的神经 络翻译(Neural Machine Translation)技术,即各家都在采用的NMT。

2016年9月底,谷歌发布了自家的神经 络翻译系统GNMT,并且将这项技术应用到了汉英翻译中,一时间谷歌翻译刷屏。该技术不再以短语作为基础,而是将输入的整个句子视作翻译的基本单元,从而提高翻译的精度。首先,该 络会将汉语句子编码成为一个向量列表,每个向量都表征了目前为止所有被读取的词的含义,读取完成后解码器开始工作,生成英语词汇,GNMT将翻译的准确率提高到了87%。谷歌大脑团队表示,GNMT上线得益于谷歌的TPU。

早在2015年,百度就开始用NMT技术来解决翻译问题,可以说是百度率先进入了NMT时代,去年谷歌的GNMT上线之后, 友用同样的句子实测发现百度和谷歌的翻译结果并没有太大差别。后来微软、韩国NAVER的Papago都纷纷采用了神经 络机器翻译技术,但是在今年2月首尔举办的人机翻译大战中,谷歌、NAVER、以及一流的自动翻译技术企业Systran均败给人类专业译员。说明目前神经 络翻译还处在非常初级的阶段。据了解,NMT的问题在于,机器无法分析语境,因为90%的译文都存在语法问题,但是比起以词汇、短语为基本单位的机器翻译,这个技术方向是正确的,只是需要时间来让计算机自主学习,缩小与人类的差距。

谷歌翻译

百度翻译

今年5月, 易也在GMIC未来创新峰会上公布,正式上线自主研发的NMT技术,服务于有道词典、有道翻译官、有道翻译 页版、有道e读等产品。据了解,有道上线的NMT技术,主要发力在新闻和口语场景下。

不论是即时语音识别还是相机捕捉翻译等各种形式,翻译的落脚点都在于精准。NMT已经逐渐取代了原有的基于短语的机器翻译,但是由于NMT要依赖端到端的方式,因此需要大量的训练数据,也需要强大的计算能力加持。亚洲语言非常复杂,目前的NMT技术还无法让机器顺利理解复杂的语境,因此谷歌将理解语意作为下一步GNMT突破的目标。而韩国的NAVER则表示,与传统的机器翻译相比,他们基于NMT的韩翻汉准确度提升了160%,汉翻韩则提升了233%,这样的成就一方面得益于亚洲语言的共通性,在韩语构成中,汉字词占据了很大比例。

去年GNMT上线,先从英汉互译开始,谷歌方面表示,是因为英汉互译需求量大,翻译难度高。离开中国市场的这些年,在汉语语料库的积累上远远不如百度,有了TensorFlow的TPU加持后,谷歌可以凭借领先的计算能力在机器翻译方面快速在亚洲市场追赶。

人人都想要做出会说话的人工智能。神经 络翻译面临的问题在于数据量小,计算能力限制等问题。要实现精准翻译,必须要进一步突破深度学习基础算法结构的能力限制,也就是说模型要随着深度而增大,而层数也会按照指数级增加,但是又要考虑这样的层数增加对于计算量和反应速度造成的负担。针对多个语种之间平行语料少的问题,构建NMT模型的时候还需要用相关语种迁移学习、共享NMT模型多任务学习、共同语料枢轴语言桥接等方法来解决,这就需要多种语言的语料库同时展开学习,进行大量的数据调用和训练。

虽然原有的语料库已经非常庞大,但是每一刻都有新的语言现象产生。NMT正处在快速进步和迭代的过程中,GPU、TPU也在不断进化,对于新闻 道、医学、物理等专业领域,通常会有较为固定的模板和标准的表述,NMT技术能够有很好的应用。但是更多的翻译场景存在于日常生活中,在人与人之间的自然沟通和日常信息交互上,以及文学艺术作品的翻译上,机器翻译还有很长一段路要走。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年5月13日
下一篇 2017年5月13日

相关推荐