首頁(yè) > 互聯(lián)網(wǎng)資訊 > 從AI到機(jī)器翻譯,百度、谷歌繞不過“宿命之戰(zhàn)”?

從AI到機(jī)器翻譯,百度、谷歌繞不過“宿命之戰(zhàn)”?

自2010年谷歌退離中國(guó)市場(chǎng)后,盡管谷歌翻譯網(wǎng)頁(yè)版在中國(guó)可用,但APP端一直未對(duì)中國(guó)大陸用戶開放。最近,谷歌翻譯最新至5.8版本,終于再度面向大陸用戶開放了完整的谷歌翻譯服務(wù)。這也引發(fā)中國(guó)互聯(lián)網(wǎng)的一陣騷動(dòng),有人猜測(cè),莫非這是谷歌要回歸中國(guó)的跡象?

事實(shí)上,谷歌翻譯APP完成這次開放的技術(shù)原理也十分簡(jiǎn)單——只是把接入點(diǎn)從TRANSLATE.GOOGLE.COM改為了TRANSLATE.GOOGLE.CN,從而允許了大陸用戶的訪問。另?yè)?jù)谷歌方面透露,谷歌翻譯APP的維護(hù)方是一家谷歌在中國(guó)的合資公司,也將接受相關(guān)內(nèi)容的請(qǐng)求和審查。

顯然,整件事情與谷歌能否回歸中國(guó)沒有任何瓜葛,這可能會(huì)讓部分谷歌迷們失落。但很多人似乎執(zhí)迷于這件事的象征意義,而忽略了事情本身——谷歌希望更多的中國(guó)用戶能完整使用它的翻譯產(chǎn)品(從網(wǎng)頁(yè)到APP)。這體現(xiàn)出谷歌正在越來(lái)越重視翻譯類產(chǎn)品。

我們常用的翻譯服務(wù)其實(shí)是機(jī)器翻譯的一個(gè)形態(tài),根據(jù)百度百科的釋義,機(jī)器翻譯又稱自動(dòng)翻譯,是利用計(jì)算機(jī)將一種自然語(yǔ)言(源語(yǔ)言)轉(zhuǎn)換為另一種自然語(yǔ)言(目標(biāo)語(yǔ)言)的過程。顯然,無(wú)論是中英互譯、中日互譯抑或是日英互譯,都是機(jī)器翻譯。

20世紀(jì)三十年代,法國(guó)科學(xué)家阿爾楚尼就提出了用機(jī)器來(lái)進(jìn)行翻譯的想法,后來(lái)美國(guó)科學(xué)家W. WEAVER 提出用計(jì)算機(jī)進(jìn)行語(yǔ)言自動(dòng)翻譯的想法,并于1949年正式發(fā)表機(jī)器翻譯的思想。再到后來(lái),各種互聯(lián)網(wǎng)翻譯工具的出現(xiàn),逐漸把歷史悠久的機(jī)器翻譯變成了互聯(lián)網(wǎng)的基礎(chǔ)性服務(wù)。

你每天使用,但你并不覺得它有多么重要,或者需要多么巨大的改變,就像是機(jī)器翻譯。直到人工智能技術(shù)的出現(xiàn),機(jī)器翻譯的變革時(shí)代終于開啟。

2016年9月,谷歌宣布此前開發(fā)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)(GNMT:GOOGLE NEURAL MACHINE TRANSLATION),正式被應(yīng)用到谷歌翻譯中。據(jù)了解,區(qū)別于傳統(tǒng)的基于短語(yǔ)的翻譯(PBMT),GNMT選取了更廣泛的文本樣本來(lái)幫助得出最準(zhǔn)確的翻譯結(jié)果,人工智能的運(yùn)用則讓機(jī)器翻譯更符合人類的思維模式和語(yǔ)法結(jié)構(gòu)。

谷歌當(dāng)時(shí)表示,與之前采用的算法相比,神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT) 能降低55%-85%的翻譯錯(cuò)誤,并且十分接近人類譯員的翻譯水平。彼時(shí),距離谷歌人工智能程序ALPHAGO大敗圍棋高手李世石只過了半年,業(yè)界對(duì)于同樣應(yīng)用人工智能技術(shù)的谷歌翻譯充滿了好奇。

雄心勃勃的谷歌計(jì)劃將這套神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯推廣到103種語(yǔ)言,解決人類交流的語(yǔ)言障礙。不過業(yè)內(nèi)人士曾分析,神經(jīng)機(jī)器翻譯作為端到端的學(xué)習(xí)架構(gòu),它能從數(shù)百萬(wàn)的實(shí)例中學(xué)習(xí),大幅提升翻譯效果。然而,跨語(yǔ)種的訓(xùn)練仍然困難,尤其是要挑戰(zhàn)103種語(yǔ)言全部采用神經(jīng)機(jī)器翻譯技術(shù)。

通過搜索引擎查閱到谷歌神經(jīng)機(jī)器翻譯系統(tǒng)的進(jìn)展,筆者發(fā)現(xiàn)主要有這兩個(gè)節(jié)點(diǎn):一個(gè)是去年11月15日,GNMT支持了英語(yǔ)與其他八種語(yǔ)言的互譯,包括英語(yǔ)和法、德、西班牙、葡萄牙、中、日、韓及土耳其語(yǔ)之間的互譯;最新的是在今年3月初,GNMT增加了對(duì)印地語(yǔ)、俄國(guó)和越南語(yǔ)的翻譯,從而將支持語(yǔ)種增加到了11個(gè)。

可見,GNMT要想實(shí)現(xiàn)覆蓋103個(gè)語(yǔ)種的野心,既要耐心、也要做好更多應(yīng)對(duì)挑戰(zhàn)的準(zhǔn)備。比如,谷歌翻譯APP開放對(duì)大陸用戶的服務(wù)后,大部分人歡呼雀躍,但仍有不少用戶表達(dá)了失望,認(rèn)為它在一些場(chǎng)景的翻譯質(zhì)量“不敢恭維”。

強(qiáng)大如谷歌,驕傲如谷歌,在做出用GNMT全面取代PBMT的決定后,它就已經(jīng)押上自己在人工智能領(lǐng)域的招牌。谷歌不想輸,也不敢輸。

當(dāng)前的機(jī)器翻譯領(lǐng)域,已經(jīng)明顯形成了中美科技巨頭競(jìng)賽的格局。在美國(guó),谷歌、微軟均明確宣布,將神經(jīng)網(wǎng)絡(luò)技術(shù)全面應(yīng)用于機(jī)器翻譯,并且都積極推廣至全球更多的語(yǔ)種。而在中國(guó),以百度為第一梯隊(duì),科大訊飛等為第二梯隊(duì)的技術(shù)型企業(yè),也紛紛把發(fā)力人工智能和機(jī)器翻譯提升到了戰(zhàn)略層級(jí)。

去年12月份,百度技術(shù)委員會(huì)聯(lián)席主席、自然語(yǔ)言處理部技術(shù)負(fù)責(zé)人吳華對(duì)外表示,百度早在一年多前就率先發(fā)布了世界上首個(gè)神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng)(NMT),NMT技術(shù)克服了傳統(tǒng)方法將句子分割為不同片段進(jìn)行翻譯的缺點(diǎn),而是充分利用上下文信息,對(duì)句子進(jìn)行整體的編碼和解碼,從而產(chǎn)生更為流暢的譯文。

除了百度,專注于語(yǔ)音交互技術(shù)的科大訊飛去年也推出多語(yǔ)種翻譯功能,實(shí)現(xiàn)五種語(yǔ)言同步翻譯成漢語(yǔ),還發(fā)布了智能翻譯產(chǎn)品“曉譯翻譯機(jī)”,預(yù)計(jì)今年上半年量產(chǎn)。

不過在我看來(lái),科大訊飛等公司目前主要圍繞機(jī)器翻譯的某個(gè)單點(diǎn)進(jìn)行突破,從而形成差異化的產(chǎn)品優(yōu)勢(shì),比如科大訊飛將語(yǔ)音翻譯技術(shù)推廣到法院等行業(yè)領(lǐng)域。

若綜合考量包括技術(shù)、產(chǎn)品、資源、應(yīng)用等多維度因素,百度依然是國(guó)內(nèi)機(jī)器翻譯的引領(lǐng)者,也是谷歌最強(qiáng)大的對(duì)手。百度翻譯現(xiàn)支持全球28種語(yǔ)言互譯、756個(gè)翻譯方向、每天響應(yīng)近億次翻譯請(qǐng)求,這些成績(jī)都把國(guó)內(nèi)對(duì)手甩在了身后。那么,百度的機(jī)器翻譯與谷歌相比又會(huì)有哪些異同呢?

吳華曾深入對(duì)比過谷歌翻譯與百度翻譯,她表示:百度NMT技術(shù)本質(zhì)上還是解決數(shù)據(jù)稀疏的問題,因?yàn)樗臋C(jī)制可以多個(gè)語(yǔ)言一起學(xué)習(xí)。谷歌GNMT也是在這個(gè)技術(shù)上,用多個(gè)語(yǔ)言一起訓(xùn)練然后共享參數(shù),共享參數(shù)的目標(biāo)是為了借鑒其他語(yǔ)種語(yǔ)料的優(yōu)勢(shì),來(lái)解決語(yǔ)料稀疏的翻譯質(zhì)量問題。

首先,在中國(guó)市場(chǎng),百度的機(jī)器翻譯更加本土化。重返大陸市場(chǎng)的谷歌翻譯APP之所以沒能取悅本土用戶,主要就有兩個(gè)原因:一個(gè)是英漢互譯本身就是比較難的語(yǔ)種轉(zhuǎn)換,尤其是中文博大精深,詞義極為多樣化,谷歌對(duì)于中國(guó)文化的理解肯定還略淺;第二點(diǎn)也是最重要的,自谷歌退出中國(guó)后,多數(shù)中國(guó)用戶習(xí)慣于首選最懂中文搜索的百度,其次選擇有道等產(chǎn)品,谷歌對(duì)于中文語(yǔ)料大數(shù)據(jù)的收集和訓(xùn)練程度已經(jīng)遠(yuǎn)遠(yuǎn)落后于對(duì)手。

其次,百度在機(jī)器翻譯上的長(zhǎng)期投入和專注度更是驚人的。百度董事長(zhǎng)李彥宏已經(jīng)放話,互聯(lián)網(wǎng)只是一道“開胃菜”,真正的“主菜”是人工智能。ALL IN人工智能的百度對(duì)于機(jī)器翻譯自然也是決心最大、看的最長(zhǎng)遠(yuǎn)的。神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)從2014年9月提出,百度2015年5月上線首個(gè)互聯(lián)網(wǎng)NMT系統(tǒng)。今年9月,谷歌、微軟等公司才相繼發(fā)布NMT系統(tǒng)。如此看來(lái),百度當(dāng)之無(wú)愧是最早發(fā)掘NMT技術(shù)的價(jià)值并將其全面應(yīng)用的科技公司。

百度攻克機(jī)器翻譯技術(shù)難題已經(jīng)有七年的歷史,先后榮獲2014年錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)一等獎(jiǎng)、2015年度國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)二等獎(jiǎng)等殊榮。截至目前,百度機(jī)器翻譯早已從高深的實(shí)驗(yàn)室走向開放,通過和相關(guān)企業(yè)合作“飛入尋常百姓家”,除了支持百度翻譯,還支持了華為、金山、OPPO、敦煌網(wǎng)等上萬(wàn)家第三方翻譯應(yīng)用,在全球擁有超過5億用戶。

吳華故有此評(píng)價(jià),谷歌翻譯在基于統(tǒng)計(jì)的機(jī)器翻譯上做得很好,處于領(lǐng)先地位,但是在基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯上,百度走在了前面。并且,谷歌翻譯是以英語(yǔ)為中心的,百度翻譯的中心是中文。另外,在語(yǔ)音的翻譯上,百度要領(lǐng)先一些。

實(shí)事求是的講,作為非專業(yè)人士,筆者對(duì)于吳華的觀點(diǎn)尚不能做確切的考證。也可能會(huì)有人講,百度是不是在吹牛?但在我看來(lái),在人工智能等前沿技術(shù)領(lǐng)域,中國(guó)科技企業(yè)的確應(yīng)該有“亮劍”精神。對(duì)于谷歌,我們可以確定它是全球范圍最流行的搜索引擎,而谷歌翻譯是最流行的翻譯軟件。但至于谷歌的機(jī)器翻譯是否全面超越了百度的機(jī)器翻譯技術(shù),甚至于谷歌的人工智能是否就是技術(shù)最強(qiáng)大的......這些都還有相當(dāng)大的問號(hào),國(guó)內(nèi)科技公司也有時(shí)間和空間證明自己的實(shí)力。

在去年的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上,李彥宏描述了機(jī)器翻譯對(duì)未來(lái)的改變——“未來(lái)的若干年,我們很容易想象語(yǔ)言的障礙會(huì)完全被打破,現(xiàn)在做同聲翻譯的人可能將來(lái)就沒有工作了。”或許,當(dāng)人工智能技術(shù)日臻完善,機(jī)器翻譯真的就會(huì)更通人性,取代翻譯機(jī)器甚至是同聲傳譯也未嘗不可。

友情鏈接