1954年,计算机科学家第一次公开发布了一款可以翻译人类语言的机器。后来这被称为乔治城-IBM实验:一个能将句子从俄语翻译成英语的「电子大脑」(electronic brain)。
当时,科学家相信,一旦通用翻译器被开发出来,不仅可以让美国在国家安全上领先苏联,还能消除语言障碍,从而促进世界和平。
他们还相信,这种进步马上就要实现了:乔治城语言学专家Leon Dostert与IBM创始人Thomas Watson共同发起了这个项目。他们认为,5年后(甚至不到5年的时间内),人们就可以用电子翻译器在若干种语言之间进行翻译。
结果,事实证明,这个进步非常缓慢。(实际上,真的太缓慢了,以至于10年后,该项研究的投资者为此发起了一项调查,以调查为何项目杳无进展。)60多年后,实时的通用翻译器(如《星球大战》中的C-3PO和《银河系漫游指南》中的巴别鱼(Babel Fish))依然只是科幻作品的产物。
那么,我们距离通用翻译器,究竟还有多远呢?专家们各执一词。和其他机器学习领域一样,这个问题的答案取决于我们训练计算机来模仿人类思考的速度。
Vikram Dendi说我们已经很近了。
「站在此处回顾历史,说『我们真的将科幻变成了现实』,这真的太酷了,」微软研究院的技术与战略咨询师Dendi如是说。
微软的翻译研究已经产生了一些可以将语音翻译成语音以及将语音翻译成文字的应用,而不仅仅是传统的文字翻译。近期最大的成果就是 Skype Translator,它可以将你在视频聊天中的语音转换为另一种语言的语音或文字,目前支持7种语言。
当然,微软并不孤单。一家名为Voxox的网络电话与聊天产品公司在它的讯息app中拥有一个文字-文字的翻译服务。谷歌在它为人熟知的文字翻译之外,还在它的翻译app中推出了一个特征:用手机相机扫描一段外国文字,然后显示出翻译文字。
几十年来,人们已经跨越了许多语言学和技术的障碍。今天,科学家们使用的技术叫做神经网络,在其中,机器被训练来模拟人类思考的方式——从本质上说,就是为我们大脑的神经网络创造一个人工的复制版本。
神经元就是神经细胞,能被人类环境的所有要素所激活,包括语言。某人在环境中出现的时间越长,该人的神经网络就会变得越复杂。
用这种神经网络的方法,机器能够将每个字转换成它最简单的表达形式——向量,相当于生物的神经网络中的一个神经元,包括的信息不仅有每个字,还有整句或整段话。在近年来飞速发展的机器学习语境中,在有限的人类辅助之下,一个神经网络翻译得越多,它的结果就越精确。
蒙特利尔大学的计算机教授Yoshua Bengio是一名神经网络研究者,他说,尽管机器现在能够用类似人类的方法来「学习」,但它们依然面临着许多限制。其中一个限制就是,它总是需要大量的数据——人类儿童学习语言所需的数据远远小于机器。
遗失的语言
通用翻译器面临的一个挑战与人类有关。某些语言,尽管有成千上亿的人在使用,但并没有获得计算机科学界足够的关注度。例如,在西非和中非,有5000万人说Hausa语,但它被看做一种「资源缺乏语言」,因为计算机科学家缺乏足够的翻译文件供给机器学习。一些科学家担心,这些语言会慢慢消失,直到连机器也无能为力。
MIT科学家Jim Glass说:「如果我们不解决这个问题,C-3PO就不会变成现实。」他正在研究机器是否能从与真人互动中学习语言。《星球大战》中勤奋的机器人C-3PO能够探测宇宙中600万种语言。「我们现在还不能达到7000种,」Glass说。他认为,到那时,科学家才能真正说自己接近通用翻译器了。
Bengio 说:「机器翻译需要大量的计算和数据,这不合理。」但是,神经网络有可能是有前景的。「它有潜力到达人类水平的表现。它聚焦在对话中文字的意思。」
这种方法打破了过去的机器翻译方法。
早期,科学家们教计算机翻译的方法是通过手工输入他们想翻译的每一对语言的规则。例如,一个形容词跟在一个俄语名词的后面,计算机就知道在翻译成英语时,应该把形容词放到名词前面。
一篇详细描述1954年乔治城-IBM实验的新闻稿说,两种语言之间的翻译所需要的计算机指令比「模拟导弹的飞行」还多。
每对语言翻译时面临的规则和例外都太多了,手工输入的方法很快就招架不住了。
20世纪80年代,科学家们开始转向基于统计学的模型。机器被输入了大量人类翻译的材料(例如来自联合国的材料)并识别出支配它们的语言模式。
南加州大学的自然语言研究教授Kevin Knight说,机器通常会关注一个段落中出现多次的文字。「例如,在研究英语与西班牙语的文件时,每次计算机看到西班牙语中出现『banco』一词,就会在英语看见『bank』或『bench』。」
计算机最终能推断出,每次它在西班牙语中发现一个「banco de」,它就会从英语的2个选项中去除「bench」,因为通常来说,「the bank of」一般指代的是一个金融机构的名字。
检验神经网络
到了21世纪,神经网络成为了机器翻译研究的一个流行的工具,提升了翻译的质量。对每个词,机器收集的信息越多,它做出的分析就越准确,越能避免出现不自然的翻译。
这种方法效果如何呢?我决定用微软的Skype Translator来试一试,它正是由神经网络所驱动。
我在Skype视频聊天中与微软的Olivier Fontana连线。Fontana用法语来欢迎我——几秒钟之后,一个男性机器开始用它的声音将其翻译成英语。我找来一位法国同事Caroline Kelly,她评论说Skype在英语转法语时似乎比反过来更流畅。
最终,结果非常精准,特别是我们在讨论常与亲戚朋友探讨的话题时,例如,假期的出行计划等。
在视频会议上,这种翻译聊天比较依赖于网络状况,如果网络好,将有助于它过滤掉其中的笑声和重复的「嗯」和「啊」等词。
当我们讨论Skype Translator背后的那些科技时,翻译变得含混不清。机器分不清法语中的「hip-hop」和「iPhone」。
在语音翻译时,处理口语的过程为机器翻译增加了难度,因为除了产生精确的结果,计算机还需要探测笑声、结巴、重复和口音。
但是,正如科学家们所说,你使用机器翻译越多,它们就会变得越好。神经网络成为了一个「动力创造者」,微软的Dendi说。
「如果没有神经网络,Skype Translator依然只是一个科幻梦,」Dendi说。
也就是说,我们并不知道当电子大脑与人类大脑相汇之日,机器翻译会走向何处。
机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。
|