- 翻譯公司資訊
-
谷歌神經(jīng)網(wǎng)絡(luò )翻譯是如何煉成的?
發(fā)布時(shí)間:2017-09-29 14:22 點(diǎn)擊:
中國互聯(lián)網(wǎng)協(xié)會(huì )主辦的2017中國互聯(lián)網(wǎng)大會(huì )在北京北京舉行。會(huì )上,谷歌翻譯研發(fā)科學(xué)家高勤發(fā)表了《利用機器學(xué)習消除語(yǔ)言障礙》 的演講,闡述了谷歌神經(jīng)網(wǎng)絡(luò )翻譯背后的技術(shù)以及未來(lái)研發(fā)的方向。Unitrans世聯(lián)翻譯公司在您身邊,離您近的翻譯公司,心貼心的專(zhuān)業(yè)服務(wù),專(zhuān)業(yè)的全球語(yǔ)言翻譯與信息解決方案供應商,專(zhuān)業(yè)翻譯機構品牌。無(wú)論在本地,國內還是海外,我們的專(zhuān)業(yè)、星級體貼服務(wù),為您的事業(yè)加速!世聯(lián)翻譯公司在北京、上海、深圳等國際交往城市設有翻譯基地,業(yè)務(wù)覆蓋全國城市。每天有近百萬(wàn)字節的信息和貿易通過(guò)世聯(lián)走向全球!積累了大量政商用戶(hù)數據,翻譯人才庫數據,多語(yǔ)種語(yǔ)料庫大數據。世聯(lián)品牌和服務(wù)品質(zhì)已得到政務(wù)防務(wù)和國際組織、跨國公司和大中型企業(yè)等近萬(wàn)用戶(hù)的認可。 專(zhuān)業(yè)翻譯公司,北京翻譯公司,上海翻譯公司,英文翻譯,日文翻譯,韓語(yǔ)翻譯,翻譯公司排行榜,翻譯公司收費價(jià)格表,翻譯公司收費標準,翻譯公司北京,翻譯公司上海。
全球僅20%的人能看懂英文,谷歌翻譯支持100種語(yǔ)言翻譯
據悉,谷歌翻譯在2006年就已經(jīng)推出,經(jīng)過(guò)11年的發(fā)展已經(jīng)支持超過(guò)100種語(yǔ)言的翻譯,覆蓋世界99%的網(wǎng)民。據高勤透露,谷歌翻譯每天提供超過(guò)10億次的翻譯,月度活躍用戶(hù)超過(guò)10億人次,其中95%來(lái)自于美國以外地區。
目前,谷歌翻譯支持手機攝像頭識別即時(shí)翻譯,手機麥克風(fēng)和揚聲器即時(shí)對話(huà)翻譯,離線(xiàn)翻譯等等。
高勤在會(huì )上解釋了谷歌翻譯服務(wù)推出的原因,“今天全世界互聯(lián)網(wǎng)內容中英文占到了50%。與此同時(shí)僅有20%的人口能夠看懂英文?梢哉f(shuō)對于世界上大多數的人來(lái)說(shuō)互聯(lián)網(wǎng)上的大部分內容是與他們絕緣的。”
神經(jīng)網(wǎng)絡(luò )翻譯初露鋒芒,已堪比非專(zhuān)業(yè)人工翻譯
而谷歌翻譯質(zhì)量的大幅提升則得益于神經(jīng)網(wǎng)絡(luò )翻譯的發(fā)展。據悉,谷歌的神經(jīng)網(wǎng)絡(luò )翻譯從2015年9月研發(fā),13個(gè)月后上線(xiàn)。谷歌的測試顯示,神經(jīng)網(wǎng)絡(luò )機器翻譯和非專(zhuān)業(yè)人工翻譯已經(jīng)相當接近,對于英中、中英翻譯也取得最大的提升。
高勤還透露了谷歌神經(jīng)網(wǎng)絡(luò )研發(fā)的過(guò)程。高勤稱(chēng),谷歌神經(jīng)網(wǎng)絡(luò )在研發(fā)之初預期要花三年時(shí)間來(lái)完成,但實(shí)際發(fā)布時(shí)間超乎我們意料。據了解,2015年9月,谷歌翻譯項目開(kāi)始基于TensorFlow研發(fā),2016年2月獲得首個(gè)產(chǎn)品規模模型,2016年11月總計16個(gè)語(yǔ)言上線(xiàn),自此神經(jīng)網(wǎng)絡(luò )機器翻譯初具規模。目前,谷歌翻譯中超過(guò)50%的流量采用神經(jīng)網(wǎng)絡(luò )翻譯。這得益于谷歌在機器學(xué)習軟硬件上的全面布局,尤其是谷歌張量處理器(TPU)的誕生。
高勤認為,神經(jīng)網(wǎng)絡(luò )相對于傳統技術(shù)是一種革命性的改變;诙陶Z(yǔ)的統計機器翻譯是拼圖過(guò)程,通過(guò)對短語(yǔ)對的排列和組合,嘗試找出較好的翻譯選項,而整個(gè)決策過(guò)程是離散的,支持這個(gè)決策的信息也都是局部的。神經(jīng)網(wǎng)絡(luò )機器學(xué)習反其道而行之,做每一步翻譯過(guò)程中可以利用云語(yǔ)言與目標語(yǔ)言所有信息,使整個(gè)決策過(guò)程既是連續也是全局的。
探索多語(yǔ)言模型:疑似發(fā)現多語(yǔ)言的通用語(yǔ)!
然而,從一個(gè)實(shí)驗室研究結果到服務(wù)10億人的產(chǎn)品,其中仍有很長(cháng)的路要走。
目前來(lái)看,因為語(yǔ)言的不同,谷歌翻譯仍需要對200個(gè)模型進(jìn)行訓練與維護,這仍然是極為繁重的任務(wù)。因此,谷歌翻譯目前已將目光投向多語(yǔ)言模型。所謂多語(yǔ)言模型是指用同一套神經(jīng)網(wǎng)絡(luò )學(xué)習多種語(yǔ)言的互相翻譯。如,可以將英語(yǔ)、西班牙語(yǔ)、韓語(yǔ)放在同一個(gè)翻譯模型中進(jìn)行翻譯。高勤稱(chēng),實(shí)現多語(yǔ)言模型的機器翻譯其方法可以非常簡(jiǎn)單,只需要將我們想要翻譯的目標語(yǔ)言代碼通過(guò)特殊符號形式告訴神經(jīng)網(wǎng)絡(luò ),神經(jīng)網(wǎng)絡(luò )就可以處理多種語(yǔ)言的翻譯。如,要翻譯到日語(yǔ),只需要在原語(yǔ)言前加入2ja+簡(jiǎn)單符號。通過(guò)這樣處理的多語(yǔ)言簡(jiǎn)單符號,很多情況下其性能超過(guò)單語(yǔ)言情況。
高勤同時(shí)指出,多語(yǔ)言模型可以非常好地處理零數據翻譯,無(wú)需通過(guò)英語(yǔ)中轉就可以實(shí)現兩者非英語(yǔ)語(yǔ)言的翻譯,這為未來(lái)構建統一翻譯模型提供了可能性。
最新研究顯示,谷歌翻譯團隊目前對多語(yǔ)言模型、以及在神經(jīng)網(wǎng)絡(luò )內部對不同語(yǔ)言中意義相近的句子向量表示進(jìn)行多維空間投影,發(fā)現意義相近的句子投影到相鄰區域,這表明神經(jīng)網(wǎng)絡(luò )內部對多種語(yǔ)言的表示具有一定的普適性。高勤表示,“這是否代表我們找到了一種能夠代表多種語(yǔ)言的通用語(yǔ)呢?現在還不能確定。我認為還需要進(jìn)一步研究。”
谷歌翻譯下一步:探究新的模型結構,追求性能極限
目前,谷歌已經(jīng)推出神經(jīng)網(wǎng)絡(luò )機器翻譯模型,其API接口已提供開(kāi)發(fā)者下載使用。高勤稱(chēng),下一步我們將繼續致力于改進(jìn)數字、日期、姓名、品牌以及不常見(jiàn)短語(yǔ)翻譯,同時(shí)進(jìn)一步研究新的模型結構與訓練方法。
高勤稱(chēng),過(guò)去一年的研究,我們對神經(jīng)網(wǎng)絡(luò )機器翻譯的認識仍然非常膚淺。我們認為神經(jīng)網(wǎng)絡(luò )機器翻譯僅僅是初露鋒芒,并沒(méi)有達到性能的極限。