人工智能(néng)，能(néng)否助人类重建“巴比伦塔”

发布时间：2016-12-20　来源：

假如上帝真的存在，他(tā)最近可(kě)能(néng)有(yǒu)些心事。

在犹太人的古老传说中，人类曾试图修建一座通向天堂的“巴比伦塔”。為(wèi)阻止这个疯狂的计划，上帝想出一个绝招——赋予不同族群不同语言，让人们难以沟通。

最终，语言的隔阂让“巴比伦塔”计划搁浅。直到今天，即便信息和交通技术把世界变成了“地球村”，语系之间的交流，依然只能(néng)依靠对彼此语言的专业學(xué)习。

但是现在，人工智能(néng)在语言翻译领域的突飞猛进，又(yòu)让人们重新(xīn)看到了“巴比伦塔”竣工的希望。

九成六级考生不如“它”

这段时间，机器翻译技术可(kě)谓高调。

微软刚刚在12月13日放出“大招”——推出实时语音翻译应用(yòng)MicrosoftTranslator，支持多(duō)人、多(duō)语言、跨设备交流。國(guó)内企业并未示弱。上个月底科(kē)大讯飞在其年度发布会上也展示了类似的技术，可(kě)以将中文(wén)会议演讲实时翻译成英、日、韩、维吾尔等多(duō)种语言显示在大屏幕上。发布会上推出的语音翻译机“晓译”还瞄准了更广阔的应用(yòng)场景——出國(guó)游玩。

平时不显山(shān)不露水的在線(xiàn)翻译应用(yòng)也已华丽升级。今年9月，谷歌翻译启用(yòng)了谷歌神经机器翻译(GNMT)系统，在人工智能(néng)界引起骚动。而追溯至去年5月，则是百度翻译发布基于神经网络的机器翻译(NMT)系统的时间。

机器翻译的高调，依赖于人工智能(néng)技术在这一领域的显著进展。

百度主任架构师何中军介绍，自上世纪40年代起，基于规则、实例以及统计的机器翻译方法渐次登场。2014年起，人工神经网络开始在机器翻译领域引领风骚。

“最终的翻译效果就是更加流畅了。”科(kē)大讯飞机器翻译研究主管刘俊华告诉科(kē)技日报记者，科(kē)大讯飞所展示的会议实时翻译系统和“晓译”翻译机便应用(yòng)了基于神经网络的机器翻译方法。

若问人工智能(néng)的到来把机器翻译“提”到了什么水平，何中军举出一道大學(xué)英语六级翻译真题。这道题需要把一句中文(wén)翻译成英文(wén)，而百度翻译应用(yòng)给出的答(dá)案，从词汇和语法来看都挑不出什么毛病。

无独有(yǒu)偶，科(kē)大讯飞在推介其“晓译”翻译机时也曾表示它可(kě)以达到大學(xué)英语六级水平。“大學(xué)英语六级的翻译题目满分(fēn)為(wèi)15分(fēn)，目前机器翻译答(dá)题可(kě)以达到11分(fēn)。”刘俊华解释说，这意味着机器翻译技术大概可(kě)以超过90%的英语六级考生。

“炼丹炉”取代了“流水線(xiàn)”

就在两三年前，“流畅”和“自然”还是让机器翻译研究人员感到头痛的字眼。那时，基于统计的机器翻译方法是大热门。

短短两年多(duō)时间内，基于神经网络的机器翻译系统，就在多(duō)个公开测试集上超越了基于统计的机器翻译系统。

单从翻译步骤来看，刘俊华的體(tǐ)会是，基于神经网络的机器翻译比其前任“简洁了非常多(duō)”。比如，要把一句中文(wén)翻译成英文(wén)，基于统计的机器翻译方法首先要对句子的词汇、短语进行切分(fēn)，然后分(fēn)别对每个单元进行翻译，再把翻译结果组合起来，最后还要进行调序等等。每个步骤都对应着十分(fēn)复杂的模型。

形象地说，如果基于统计的方法是一条長(cháng)長(cháng)的流水線(xiàn)，基于神经网络之后只需一个“炼丹炉”。

新(xīn)方法被称為(wèi)“从端到端”的翻译。“基本的神经机器翻译模型包含两个部分(fēn)，编码器和解码器。”何中军解释说，编码器将源语言句子表示為(wèi)一个向量，解码器根据此向量逐词产生目标译文(wén)。也就是说，一个句子经过一次“加工”就能(néng)够直接输出目标语言。

不仅翻译效率得到了极大提高，结果也更加流畅自然。这是因為(wèi)，神经机器翻译方法是对整个句子进行编码处理(lǐ)，可(kě)以照顾到词汇的上下文(wén)信息，因此翻译出的答(dá)案不像统计机器翻译方法那样生硬。

正是“流畅”和“自然”将机器翻译技术推向更加实际的应用(yòng)。而且在与其他(tā)人工智能(néng)技术相结合后，机器翻译可(kě)以真正触到人们语言不通的“痛点”，从而深度切入商(shāng)務(wù)、旅行、學(xué)习等多(duō)个场景。

例如，无论是微软的MicrosoftTranslator，还是科(kē)大讯飞的会议实时翻译系统以及“晓译”翻译机，都结合了语音识别技术来為(wèi)语言交谈架起桥梁。而融入了光學(xué)字符识别(OCR)技术的百度翻译APP，则可(kě)以在國(guó)外購(gòu)物(wù)或旅游的场景下，帮助人们翻译看不懂的英文(wén)路牌、菜单和说明书等。

等待打破“叹息”之墙

可(kě)以看到，人工智能(néng)正在一点一点“捅破”人与人之间的语言隔阂。有(yǒu)网友戏言，或许不久后的一天，揣着装了高效语言翻译APP的手机，邻居大妈也能(néng)来一场说走就走的世界旅行。所有(yǒu)國(guó)家的學(xué)生将彻底挣脱外语课的“黑暗统治”。

不过，要把重建“巴比伦塔”的美梦寄托给当前、乃至未来一段时间内的机器翻译技术，还是有(yǒu)点不太现实。

“基于神经网络的翻译技术虽然带来了机器翻译质量的较大提高，但是本身还存在诸多(duō)技术挑战。”何中军说。他(tā)把神经网络比作一个“黑盒子”，中文(wén)句子进去，英文(wén)句子出来，但是这个“黑盒子”為(wèi)何要这么翻译，技术人员还难以对其进行合理(lǐ)的解释。

更重要的是，复杂、多(duō)变，我们自己都掌握不住的“人性”，仍然是所有(yǒu)人工智能(néng)发展的叹息之墙。

虽然对单个句子的翻译可(kě)以实现流畅和自然，但是在整个篇章的上下文(wén)理(lǐ)解方面，机器翻译并不给力。一旦涉及歇后语、诗句、双关语甚至口语化的表达，机器翻译更会毫不掩饰地掉链子。而对于如何将知识融合到机器翻译系统中，让机器真正“理(lǐ)解”人类的语言，目前还没有(yǒu)较好的解决方案。

从另一个角度来看，无论是基于统计的机器翻译，还是基于神经网络的机器翻译，都以庞大的语料库為(wèi)基础。然而刘俊华告诉科(kē)技日报记者，虽然中、英等主要语种的语料相对充足，一些小(xiǎo)语种的翻译，比如科(kē)大讯飞目前关注的國(guó)内少数民(mín)族语言的翻译，依然会面临语料短缺的问题。

“目前的成果可(kě)以证明，神经网络在语言翻译领域的应用(yòng)效果不错，但它的潜力还没有(yǒu)完全发挥出来。”刘俊华给出的方案是，可(kě)以考虑将其他(tā)技术路線(xiàn)与基于神经网络的机器翻译方法融合起来，使其各施所長(cháng)，实现更好的翻译效果。

人工智能(néng)会不会取代专业的同声传译？这个简单的问题竟让机器翻译领域的专家们感到為(wèi)难。何中军用(yòng)“任重道遠(yuǎn)”作為(wèi)回答(dá)，而在刘俊华看来，对照传统的翻译规则——“信、达、雅”，人工智能(néng)目前仅能(néng)实现“信”，离后二者尚有(yǒu)距离。

这么说来，上帝或可(kě)放宽心：就算人工智能(néng)要帮助人类重建“巴比伦塔”，也不过刚刚捡起几块砖瓦而已。

只是，未来呢(ne)？

上一篇：互联网金融的大数据时代来临？

下一篇：今年我國(guó)互联网行业收入增長(cháng)超40%4G用(yòng)户破7亿户

首页

关于厚溥

产品服務(wù)

新(xīn)闻中心

企业特色

合作单位

举报投诉

部分(fēn)旗下网站

新(xīn)闻中心

人工智能(néng)，能(néng)否助人类重建“巴比伦塔”