登录  注册

机器翻译,让语言交流无障碍

发布时间:2016-03-17 13:02 发布者:huidan 来源:藏语自然语言处理平台

来源:http://www.kuqin.com/shuoit/20150718/347104.html

一、引言
目前各个国家和民族的不同种类信息不断融会贯通,不同语言之间的翻译已经成为当今社会基本需求之一。小到出国旅游翻译或者资料翻译,大到基于互联网的跨境电商、跨境旅游、外贸、O2O、海外租车、金融服务等国际化业务实施,都面临着一个无法避免的问题即多国语言的翻译。针对网络上海量和动态变化的多语言信息,如何进行低成本和快速实时翻译,从而实现有效交流?基于人工翻译来解决这个难题是不可想象的,因为翻译人员的人力成本越来越高,所以唯一的解决方法就是充分利用机器翻译技术,提供智能自动翻译服务。
机器翻译技术可以将一种语言文字自动地转换为另外一种语言文字,应该是解决翻译问题的终极技术手段之一。机器翻译研究最早始于1949年,美国洛克菲勒基金会自然科学部门的负责人沃伦•韦弗(Warren Weaver)发表了一份以《翻译》为题的备忘录,由此翻开了历史性一页。据统计,世界上大约有6000多种语言,但很多语言已经接近绝迹。利用计算机软件实现不同语言之间的智能翻译,成为了人工智能领域的一个梦想。也有人称机器翻译是自然语言处理领域的皇冠明珠,只有解决了语言分析的所有难题,才能真正攻破机器翻译这座堡垒。
近十几年来,机器翻译研究及产业化在各国政府和产业界的大力支持下,取得了快速进展。我国政府把包括机器翻译技术在内的自然语言理解研究列入国家中长期科技发展规划纲要中。美国政府在2009年把自动翻译列为最具影响力的未来十大技术之一。美国国防部所主导的“2049”计划和BOLT项目1都将机器翻译作为现代信息技术中的制高点进行重点攻坚。产业界如谷歌和百度等互联网巨头也将其作为在线服务的重要入口。据报道,谷歌翻译每天为全球两亿多个用户提供服务,每天翻译次数达10亿次,每天翻译处理的文字数量相当于100万册图书,超过了全世界的专业翻译人员一年能够翻译的文字规模。机器翻译具有重要的理论研究和产业应用价值。
二、机器翻译技术
早期的研究人员将机器翻译技术看作加密、解密过程,利用双语词典作为密码本,实现基于双语词典的简单转换翻译,由于低估了自然语言本身的词汇翻译和结构转换歧义性等困难,应用十分有限。随着计算机软硬件发展和计算语言学理论方法的日趋成熟,机器翻译研究不断取得突破性进展。从基于规则的翻译技术,到基于实例、基于模板、基于翻译记忆等翻译技术,最终发展到目前主流的统计机器翻译技术。
统计机器翻译技术的最大优点在于,只需要提供一定规模(如百万级乃至千万级)的双语句对库,翻译系统自动学习3~5天就可完成系统构建,无须任何人工干预。另外,从翻译性能来看,基于大规模双语数据自动训练学习的统计机器翻译系统性能表现更优。统计机器翻译技术本质上是数据驱动的方法,利用机器学习方法从大规模双语句对库中自动学习训练翻译模型和语言模型,基本上不需要人工干预;如果用于训练学习的计算机硬件运算资源越丰富,所需要的训练学习时间就越少。
自20世纪80年代末提出IBM模型以来,统计机器翻译技术逐步从基于单词的方法、基于短语的方法发展到基于句法的方法。与基于词/短语的翻译方法不同,句法翻译模型可以利用句法分析结果来指导翻译过程。从理论上说,由于句法树可以更加全面深入地表示句子的结构信息,句法翻译模型可以提供更多的语言学依据来辅助结构翻译和调序。然而在大多数实际翻译任务中,这种理论优势并未得到充分体现,译文质量没有显著提高,反倒是句法翻译模型复杂度和计算量均呈指数级增长。相比之下,跨语言语义的差异性要远小于句法的差异性,即语义比句法具有更强的跨语言等价性。目前统计机器翻译研究缺乏对语义等深层次语言学信息的有效使用,基于短语和基于句法的方法本质上都没有利用语义知识来进行翻译建模。很早以前就有研究者尝试在统计机器翻译中引入语义信息,但是由于语义框架的不完善及语义分析系统的性能瓶颈,基于语义的机器翻译面临很大挑战,并成为目前的研究热点。
一个统计机器翻译系统构建框架(见图1)包括双语句对自动词对齐、翻译规则抽取、翻译特征打分、语言模型和调序模型训练、翻译特征权重调优、翻译解码和翻译后处理等几部分。机器翻译系统的开发和调优实际上是非常复杂的,从目前国际机器翻译技术评测研究报告上看,通常采用增加训练数据、训练更强大的语言模型、扩大解码搜索空间和使用更加复杂的模型及参数等四种方法,来改善统计机器翻译系统性能。很多与之有关的研究成果对机器翻译特别是对统计机器近些年的发展起着至关重要的推动作用。
三、如何快速搭建机器翻译系统
假设用户想快速搭建一套多国语机器翻译系统提供智能翻译服务,最简单的解决方案是使用在线翻译服务如谷歌翻译、百度翻译、微软必应翻译和有道翻译。通过直接使用它们提供的免费在线翻译应用程序接口(API)进行二次开发,将在线翻译功能嵌入到用户自己的业务应用软件中,在联网的情况下可以使用在线翻译服务。这种解决方案简单易行,可以满足对翻译需求要求不太高的应用,但存在一些局限性,比如单用户翻译访问量不能太大,不支持个性化定制服务,无法保障数据翻译安全性等问题。与联网使用在线翻译服务不同,用户在本地构建机器翻译私有云的方案可以解决如下应用需求:(1)实现多国语机器翻译;(2)本地构建智能自动翻译私有云,安全稳定高效可配置;(3)提供翻译私有云应用程序接口支持二次开发,可以在用户业务平台中增加多国语自动翻译功能;(4)支持自学习机制,让翻译性能越用越好,逐渐适应用户的领域翻译需求;(5)用户通过双语训练数据自动构建新语种和新领域的机器翻译系统。
由于机器翻译理论和实现技术非常复杂,系统代码量非常大,因此即使是机器翻译专业人员想短期开发一套全新系统,也是非常困难的。快速构建翻译系统的最佳方案是充分使用现有成熟的开源统计机器翻译系统。目前国际上比较知名的开源统计机器翻译系统包括英国爱丁堡大学Moses、美国约翰•霍普金斯大学Joshua、美国卡内基梅隆大学SAMT、美国斯坦福大学Phrasal、德国亚琛工业大学Jane和我们团队研发的NiuTrans系统(小牛翻译)等。不同于其他开源系统只支持一个或两个翻译模型,NiuTrans和Moses目前能够同时支持五个统计机器翻译模型(短语、层次短语、树到串、串到树和树到树模型),已在国际学术界和工业界得到广泛应用。NiuTrans曾在一些国际机器翻译评测如NTCIR/CWMT中获得过第一、第二名成绩,目前已免费共享给来自60多个国家的1000多个研究机构。相对于使用基于公有云的在线翻译服务来说,用户利用开源统计机器翻译系统在本地快速构建翻译私有云,实现本地化、专业化和个性化,而且既安全又好用,特别是能够满足一些高端用户对多国语机器翻译的应用需求。欧盟一直鼓励和支持欧洲企业采用开源系统搭建自有的机器翻译私有云服务。
四、翻译应用服务
根据近几年《中国语言服务业发展报告》显示,2015年预计翻译服务企业年产值将超过2600亿元人民币。语言服务行业对机器翻译需求越来越强烈,国内目前至少已有上万家传统翻译公司和几百万专业译员。由于传统人工翻译成本越来越高,客户不断压价,传统辅助翻译工具解决能力有限,使得人们开始寄希望于机器翻译技术来帮助译员提高翻译效率,从而降低人工翻译代价。实际上机器翻译与人工翻译的有机结合属于双赢的合作局面。另外,很多时候翻译行业对数据翻译的安全性要求也很高,这就对机器翻译私有云提出了更高的要求。由于翻译公司自身多年的人工翻译积累了大量的专业双语数据,因此若利用自有的专业领域双语数据进行自动训练,构建高性能专业领域的机器翻译系统,其翻译性能会大大好于通用的在线翻译服务。不过,从机器翻译技术的成熟度和技术发展趋势来判断,机器翻译在可预见的未来还无法代替人工翻译,但用于帮助大幅度提高人工翻译效率,甚至部分代替一些水平较低的新手是完全可能的。目前,机器翻译可应用于多民族语言转换、旅游、跨境电商等方面,具体如下。
我国是统一的多民族国家——语种多、文种多,民族语文工作是巩固社会主义民族关系和开展民族工作的重要内容,是促进民族地区经济建设、政治建设、文化建设和社会建设的客观需要。《中华人民共和国民族区域自治法》明确规定,各少数民族有使用和发展自己语言文字的自由。面向少数民族语言的多语言智能翻译系统可以进一步推进少数民族语文在双语教学、成人扫盲、新闻出版、互联网等领域的运用,对和谐社会构建具有深远的意义。国家为此正在投入大量人力财力来支持面向少数民族语言的多语言智能翻译和处理系统,可以说已经上升到国家战略发展层面。目前,我们团队与中国民族语文翻译局合作研发的国内首套汉文与民族文智能翻译系统已经正式上线试运行,实现了汉文与蒙古、藏、维吾尔、哈萨克和朝鲜五种民族文的双向翻译,在新疆、西藏地区得到了很好的反响,其中《文汇报》、《中国日报》、《光明日报》以及人民网、新华网等多家新闻媒体对此作了详细报道。
出国旅游面临的一个现实问题就是语言交流障碍。为了解决这个问题,目前很多互联网公司利用语音识别/合成和机器翻译技术开发了手机版的语音翻译应用(APP)。只要携带安装了该应用的手机,就可以与当地人进行英汉对话自由交流,特别适合于普通大众出国旅游之用,实现了“只要一机在手,走遍天下都不怕”。
跨境电商在海淘业务中需要将国外商品介绍到国内,或者将国内商品介绍到海外。为了完成成千上万种商品的介绍以及生产企业的介绍,单靠人工翻译,代价会非常高因此需要多国语机器翻译技术的服务支持。多国语机器翻译云平台与基于互联网在线服务的人工客服系统连接在一起,提供多语言智能自动翻译服务,可帮助客服人员与国外客户进行友好交流。如果将翻译云平台与聊天平台有机结合,则能让来自不同国家的朋友们基于文本/语音/视频进行友好交流。随着4G/5G通讯技术的发展,有望真正实现地球村式的自由交流。
六、机器翻译,路在脚下
虽然机器翻译在过去的二十年中得到了前所未有的发展,但是仍然有许多问题值得探索,离真正实现机器翻译有很长的路要走,主要有以下三个方面的问题。
问题层面 机器翻译研究需要更加关注“机器翻译”自身的问题。机器翻译是一个交叉学科,它依赖计算机、数学、语言学等多个学科的融合。机器翻译的研究也往往会借鉴很多其他学科的研究成果,比如,统计机器翻译中使用的各种数学建模和模型学习方法大多是从机器学习中借鉴过来,再比如,现在机器翻译中经常使用的语言模型技术也基本上照办了语音识别中的相关技术。所以,寻找学科间的共性问题不仅能够大大加速机器翻译的研究进程,也在某种程度上为机器翻译提供了捷径。不过,从机器翻译的发展历史上来看,机器翻译的里程碑事件大多是与机器翻译本身特有问题研究的突破有关,比如,基于词汇、短语和句法的翻译模型、最小错误率训练等。这些经验告诉我们,只有解决机器翻译本身的核心问题,机器翻译才会迎来新的机遇。从实践的角度,研究者们也发现了类似的现象:很多在其他学科中十分有效的方法在机器翻译中并不好用,比如,在自动分类等任务中经常使用感知机等方法来训练判别模型,但是机器翻译的感知机训练效果一直未得到认可,直到最近研究者考虑翻译解码中特有的搜索问题后,该训练方法在机器翻译中才有了真正的用武之地。当然,探讨所谓学科间的共性问题和特性问题可能属于哲学范畴,但是历史告诉我们,只有考虑机器翻译自身的问题(比如机器翻译语言学建模)才是机器翻译发展的根本,未来也应该是这样。特别是近5年来,机器翻译研究已经进入一个新的平台期,对机器学习等方法的使用受到了很大关注,而机器翻译原创性研究的比例并不高,这也对今后机器翻译自身问题的研究提出了更强烈的需求。机器翻译不能仅寄希望于一两种机器学习方法,要想取得大的发展必须自身有所突破。
方法层面 机器翻译需要进一步深入融合语义等语言学信息和机器学习方法。机器翻译已经从简单的基于连续词串的翻译模型迈进了句法翻译模型时代,下一阶段的研究呼唤语言学信息的进一步使用。比如,如何使用(句子级)语义信息已经受到关注,但是基于语义的机器翻译的突破还须多项基础研究的支持,比如句子的语义表示、生成、双语/多语间的语义结构对齐、推理等等。相信这些问题的研究会成为机器翻译今后的重要组成部分。再有,句子上下文等篇章信息也应该成为机器翻译的突破点之一,虽然现在已经有一些相关研究,但是还缺乏统一的框架和系统。从机器翻译数学方法角度看,机器学习特别是深度学习仍会是未来机器翻译研究中的技术热点,比如使用基于神经元网络的深度学习技术来获得更高元的语言模型或翻译模型将是有趣且实用的研究课题。这里面还需要注意的是最近受到广泛关注的word embedding(词汇层面的嵌入式语义表达)技术,把每个单词表示为一个向量,而词汇的语义就蕴含在这个向量表示中。这个方法可以帮助机器翻译使用更多“潜在”的语义信息。但是这些向量并没有太多的语言学解释,如何与基于语言学驱动的翻译模型更好地融合还需要深入的探讨。
应用层面 机器翻译需要更加清晰的应用模式,使其更“接地气”。为此,我们要寻找产业爆发点。机器翻译技术方法的研究和机器翻译产业化应用是两个不同的维度,现在的模式是二者各司其职,互不“干扰”:高校和科研院所专注于机器翻译技术本身,以论文和科研项目为主要出口;而有翻译需求的企业更多的是使用已经成熟的辅助翻译软件,并不关心机器翻译技术。虽然随着各个互联网巨头对机器翻译的热情不断增高,机器翻译已经可以作为公共服务被大家所使用,但是不得不说机器翻译的研究和产业化仍然相对独立。这也就形成了一个奇怪的现象:机器翻译学者不愿意过多地思考如何将技术“应用出去”,而有需求的企业也没有去思考“用什么”机器翻译技术能解决自身的问题。笔者就曾不止一次遇到过类似的状况,很多有翻译需求的企业仍然不了解甚至未听说机器翻译,而机器翻译技术研发人员也不愿意与之过多交流。更有甚者,职业译员和机器翻译研究人员互相排斥,引发论战。实际上从整个机器翻译产业的发展来看,这种不了解、不认同的情况从某种程度上讲也是由我们自身造成的。机器翻译究竟如何在企业和人们生活中发挥更大的作用是大家所应该共同探讨的问题。如何使用我们所研发的技术方法,与研发这些技术方法本身同样重要,而这些我们还没有很好的思考。从世界范围看,已有很多研究机构开始将机器翻译进行产业化,比如,美国南加州大学信息科学院(Information Sciences Institute, ISI)的部分学者就成立了Language Weaver公司,以便在进行机器翻译技术研发的同时寻找这些技术的出路。
目前,机器翻译的“台风”还没有真正吹起来,主要瓶颈在于,与人工翻译相比,机器翻译技术还无法实现高品质翻译,比如达到可出版水平。但目前机器翻译技术已经具有很好的可用性,在人工翻译无法满足的应用场景中,机器翻译技术已经逐渐发挥巨大作用,比如出国旅游个人行、国际新闻采编和跨境电商应用等。我们有理由相信机器翻译技术能够逐渐改变人们的生活习惯,从单语世界到多语世界是发展趋势,相信不久的将来,随着机器翻译技术的不断发展,将逐渐走入大家的日常生活中,造福社会。“机器翻译,让语言交流无障碍”将成为现实。
来源:http://www.kuqin.com/shuoit/20150718/347104.html

   

藏语自然语言处理平台,自2022年1月1日起核心功能已被使用 0 次。
版权所有:2015-2022 中国社会科学院民族学与人类学研究所民族语言文化行为实验研究室,longcj@cass.org.cn
技术支持:中国科学院软件研究所时空数据管理与数据科学研究中心
联系地址:北京市中关村南大街27号6号楼,邮政编码:100081
推荐使用Chrome、Firefox浏览器,使用1024*768以上的分辨率

任务正在执行,请耐心等待……

操作执行成功。

操作执行失败,请联系系统管理员。

数据已变更,请点击按钮刷新页面。

确定