当日论坛上,小度机器人当起主持人,和真人搭档做起多语翻译。小度算是世界上第一个能实现多语翻译的机器人,或许以后那种高大上的舞台,就不需要外语主持了。
这个获奖项目全名是《基于大数据的互联网机器翻译核心技术及产业化》。由百度牵头,与中科院自动化所、浙江大学、哈尔滨工业大学、中科院计算所和清华大学联合研发。
说到翻译,乍一听,好像不难,翻译软件在非互联网时期就有了。早在1946年第一台现代计算机诞生之初,美国科学家W.Weaver就提出了机器翻译的设想。
但事实上,机器翻译是人工智能领域的终极目标之一,涉及计算机、认知科学、语言学、信息论等学科。到底有多难,想想我们自己怎样刻苦学习外语就知道了。大概科学家们的梦想就是造出巴别塔,让人类不用再学外语。
互联网时代,翻译自然要用“自然语言处理技术+大数据”来解决。那么,百度翻译解决了哪些问题?
通过海量自然语言语料库,让机器自动学习理解不同单词、短语和句式,然后进一步优化自身系统,并突破了“消歧”和“调序”等难题。
2、基于互联网大数据的翻译模型,可实时准确地响应多文体、多领域的复杂翻译请求。
3、基于枢轴语言的翻译技术,使得资源非常稀缺的小语种翻译成为可能,且实现了多语种翻译的快速部署。
这些年百度一直苦心钻研人工智能,技术公司路径愈发明显。甚至可以推断,百度战略放弃了一些过渡性技术和产品。直奔着下一个制高点去了。
和百度过去那些核心技术一样,百度翻译也被模块化,做成了开放平台。跨国企业、中小企业和普通开发者都可以免费接入百度翻译API,使用优质的多语言翻译服务。目前通过API接入百度翻译服务的第三方应用累计超过7000个。
跨境B2B电子商务平台敦煌网使用了百度翻译API,商家上传商品中文资料后,后台会自动翻译出各种相应外语语种。还有一嗨租车,可以让外国人自动生成母语订单,一些知名品牌手机的系统文字使用的同样是百度翻译。
“巴别塔”不仅是科学家的梦想,而且有巨大的商业价值。至少目前,基于大数据的机器翻译已经可以代替一些水平较低的翻译新手。如果使用在线翻译API进行二次开发,在许多场景下可以实现更多元的大众化使用,而且类似场景会越来越多。
比如最近很火的社交应用足记,就接入了百度翻译的API。创始人CEO杨柳说:“足记的翻译是很特殊的存在,使用者对翻译的诉求最低,但是对译文的要求最高。我们想要将很多经典的台词、中英文或是古诗词翻译好,帮助每一个用户成为诗人。如果机器翻译出现前后倒置,就会影响用户的体验,因此足记对比过很多翻译接口。
当然,仅用人工智能的终极梦想解答不了百度为什么这么重视翻译。我们还是需要回到原点来评判它的价值。
百度是一家搜索公司,以前做的很多工作是连接人与信息,而现在更多的是连接人与服务。百度公司技术副总裁王海峰说:“搜索的本质就是连接人与信息、人与服务。在寻找信息和服务的过程中,人们会有用其它语言表达需求的时候,也会有看其它语言结果的需求。为了更好地把人和多语言的信息和服务连接起来,我们需要翻译。”
世界那么大,应该去看看。但凡这个过程中涉及到多语言场景和应用,翻译就是入口。
编辑:张海云