- 翻譯公司資訊
-
語(yǔ)料庫是語(yǔ)言知識的可靠來(lái)源
發(fā)布時(shí)間:2017-09-29 14:22 點(diǎn)擊:
首先祝賀第三屆漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫國際會(huì )議在北京召開(kāi)。漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫是獲取語(yǔ)言知識,發(fā)現語(yǔ)言偏誤,提高語(yǔ)言習得水平的重要手段! ∥沂且粋(gè)自然語(yǔ)言處理的研究者,早在1957年,我就對于語(yǔ)言研究的發(fā)生了濃厚的興趣,夢(mèng)想著(zhù)打破人類(lèi)的語(yǔ)言障礙,后來(lái)我知道了美國在1954年就研制成功俄英機器翻譯,受到極大的鼓舞,決心投身機器翻譯研究,實(shí)現自己的科學(xué)夢(mèng)想。1979年-1981年我在法國格勒諾布爾理科醫科大學(xué)留學(xué)時(shí),曾經(jīng)研制過(guò)一個(gè)把漢語(yǔ)自動(dòng)地翻譯為法語(yǔ)、英語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ)5種外語(yǔ)的機器翻譯系統,叫做FAJRA系統,提出了多叉多標記樹(shù)形圖模型(multiple-branched and multiple-labeled tree model, MMT),這是一個(gè)基于短語(yǔ)的機器翻譯模型(phrase-based machine translation, PBMT)。Unitrans世聯(lián)翻譯公司在您身邊,離您近的翻譯公司,心貼心的專(zhuān)業(yè)服務(wù),專(zhuān)業(yè)的全球語(yǔ)言翻譯與信息解決方案供應商,專(zhuān)業(yè)翻譯機構品牌。無(wú)論在本地,國內還是海外,我們的專(zhuān)業(yè)、星級體貼服務(wù),為您的事業(yè)加速!世聯(lián)翻譯公司在北京、上海、深圳等國際交往城市設有翻譯基地,業(yè)務(wù)覆蓋全國城市。每天有近百萬(wàn)字節的信息和貿易通過(guò)世聯(lián)走向全球!積累了大量政商用戶(hù)數據,翻譯人才庫數據,多語(yǔ)種語(yǔ)料庫大數據。世聯(lián)品牌和服務(wù)品質(zhì)已得到政務(wù)防務(wù)和國際組織、跨國公司和大中型企業(yè)等近萬(wàn)用戶(hù)的認可。 專(zhuān)業(yè)翻譯公司,北京翻譯公司,上海翻譯公司,英文翻譯,日文翻譯,韓語(yǔ)翻譯,翻譯公司排行榜,翻譯公司收費價(jià)格表,翻譯公司收費標準,翻譯公司北京,翻譯公司上海。
當時(shí)我采用的方法,是基于語(yǔ)言規則的理性主義方法。我用了3年時(shí)間,編寫(xiě)了漢語(yǔ)分析規則5000條左右,法語(yǔ)、英語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ)的轉換規則和生成規則各3000條左右,一共20000多條規則,此外,我還編制了若干部機器可讀的、代碼化的機器翻譯詞典,由于工作量大,我每天工作時(shí)間都超過(guò)10小時(shí),扎扎實(shí)實(shí)苦干了3年,于1981年11月在IBM 4341大型計算機上輸出了法語(yǔ)、英語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ)等5種語(yǔ)言的機器翻譯譯文。這是世界上第一個(gè)把漢語(yǔ)自動(dòng)地翻譯成多種外語(yǔ)的機器翻譯系統! ∵@個(gè)系統研制成功之后,在有限規模的語(yǔ)言范圍內,翻譯的正確率還比較高,而當擴大語(yǔ)言范圍時(shí),對于任意的漢語(yǔ)句子,翻譯的正確率只能達到70%左右,這樣的機器翻譯系統顯然是難以實(shí)用的。我在1982年回國之后,又相繼研制了法漢、英漢、日漢和德漢機器翻譯系統,翻譯正確率都沒(méi)有超過(guò)70%! ∥液馁M了如此巨大的精力,卻得到了很不理想的結果,在嚴峻的考驗面前,我在少年時(shí)代的機器翻譯夢(mèng)想遭到了挫敗。我沒(méi)有得到多少成功的經(jīng)驗,卻留下了大量失敗的教訓。我為此感到困惑,有一種難言的失落感! ≌斘页蠲疾徽怪H,1993年7月在日本神戶(hù)召開(kāi)的第四屆機器翻譯高層會(huì )議(MT Summit IV)上,英國著(zhù)名學(xué)者哈欽斯(J. Hutchins)在他的特約報告中指出,自1989年以來(lái),機器翻譯的發(fā)展進(jìn)入了一個(gè)新紀元。這個(gè)新紀元的重要標志是,在基于規則的技術(shù)中引入了語(yǔ)料庫方法。這種建立在大規模(large-scale)真實(shí)文本(authentic text)處理基礎上的機器翻譯,是機器翻譯研究史上的一場(chǎng)革命,它會(huì )把自然語(yǔ)言的計算機處理推向一個(gè)嶄新的階段! “颜Z(yǔ)料庫方法引入到機器翻譯中,改變了機器翻譯翻譯研究者獲取知識的手段,由于語(yǔ)料庫是大規模的真實(shí)文本,人們就可以得到更加完善的統計性的語(yǔ)言知識,因此,也就大大地提高了機器翻譯的質(zhì)量,加快了機器翻譯系統的研制周期! ≌Z(yǔ)言知識究竟在哪里?語(yǔ)言知識固然存在于語(yǔ)法書(shū)里,存在于各種類(lèi)型的詞典里,存在于汗牛充棟的語(yǔ)言學(xué)論文里,但是,更加全面的、更加客觀(guān)的語(yǔ)言知識應當存在于大規模的真實(shí)文本語(yǔ)料庫里,語(yǔ)料庫是語(yǔ)言知識最可靠的來(lái)源! ≌Z(yǔ)料庫改變了機器翻譯的命運,基于短語(yǔ)的機器翻譯發(fā)展成為統計機器翻譯( statistical machine translation,SMT),機器翻譯走向了商品化和實(shí)用化的新階段! ‰S著(zhù)互聯(lián)網(wǎng)的迅速發(fā)展,我們進(jìn)入了大數據時(shí)代。數據挖掘成為計算機科學(xué)的一個(gè)重要研究領(lǐng)域,數據挖掘中采用的機器自動(dòng)學(xué)習的方法,對于統計機器翻譯具有重要的價(jià)值! C器自動(dòng)學(xué)習的方法主要有三種類(lèi)型:有指導的學(xué)習、無(wú)指導的學(xué)習、半指導的學(xué)習! ∮兄笇У膶W(xué)習實(shí)際上是對于數據進(jìn)行分類(lèi),首先使用事先定義好的類(lèi)別或范疇標記對于數據的實(shí)例進(jìn)行標注,作為訓練數據,機器根據這些標注好的訓練數據進(jìn)行自動(dòng)學(xué)習,再根據學(xué)習得到的知識對于新的數據進(jìn)行分類(lèi)。由于用來(lái)學(xué)習的訓練數據是用事先定義好的標記進(jìn)行過(guò)標注的,機器學(xué)習的過(guò)程是在這些訓練數據的指導下進(jìn)行的,所以叫做有指導的學(xué)習! ≡跓o(wú)指導的學(xué)習中,用來(lái)學(xué)習的數據沒(méi)有使用事先定義好的類(lèi)別或范疇標記進(jìn)行過(guò)標注,要使用機器學(xué)習的算法來(lái)自動(dòng)地發(fā)現隱藏在數據中的特征、結構或規律。這種無(wú)指導學(xué)習的一個(gè)關(guān)鍵技術(shù)是聚類(lèi),聚類(lèi)技術(shù)根據數據實(shí)例的相同點(diǎn)或相異點(diǎn),自動(dòng)地把它們聚類(lèi)為不同的組合! ∮兄笇У膶W(xué)習要求事先人工標注大量的數據實(shí)例,需要付出巨大的人工的勞動(dòng)量,費力而又費時(shí),為了減少人工標注的勞動(dòng)量,可以同時(shí)從標注過(guò)的數據實(shí)例和沒(méi)有標注過(guò)的數據實(shí)例中進(jìn)行學(xué)習,標注過(guò)的數據實(shí)例的集合可以比較小,而沒(méi)有標注過(guò)的數據實(shí)例的集合可以很大,這樣的模型叫做半指導的學(xué)習! C器自動(dòng)學(xué)習的這些方法已經(jīng)成熟,而且廣泛地應用于統計機器翻譯的研究中,這就從根本上改變了傳統的獲取語(yǔ)言知識的手段,從大規模的雙語(yǔ)對齊語(yǔ)料庫中,通過(guò)機器自動(dòng)學(xué)習的方法,去獲取語(yǔ)言的翻譯信息,對于機器翻譯的發(fā)展具有革命性的意義! ∧壳,基于多層神經(jīng)網(wǎng)絡(luò )的、以大數據作為輸入的深度學(xué)習(deep learning)方法引入到機器翻譯中。這是一種新型的機器自動(dòng)學(xué)習。深度學(xué)習的訓練方式是無(wú)監督的特征學(xué)習,使用多層神經(jīng)網(wǎng)絡(luò )的方法。這種多層神經(jīng)網(wǎng)絡(luò )是非線(xiàn)性的,可以重復利用中間層的計算單元,減少參數,計算機從海量的大數據中可以自動(dòng)地產(chǎn)生模型的特征和算法! ≡~向量是多層神經(jīng)網(wǎng)絡(luò )的一種重要方法,詞向量把單詞映射為一個(gè)固定維度的向量,不同的詞向量構成詞向量語(yǔ)義空間,在這個(gè)詞向量語(yǔ)義空間中,語(yǔ)義相似的單詞距離較近! ∩疃葘W(xué)習研究者米克羅夫(Tomas Mikolov)發(fā)現,如果用“意大利”這個(gè)單詞的屬性向量來(lái)減去“羅馬”這個(gè)單詞的屬性向量,再加上“巴黎”這個(gè)單詞的屬性向量,我們就能得到“法國”這個(gè)單詞或者相近的屬性向量。類(lèi)似地,如果用“國王”的屬性向量減去“男人”的屬性向量,再加上“女人”的屬性向量,就能得到“王后”的屬性向量。這非常令人振奮的結果,因為米克羅夫事先并沒(méi)有刻意地做這樣的安排! 2007年以來(lái),采用深度學(xué)習的方法,以大規模的雙語(yǔ)對齊的口語(yǔ)語(yǔ)料庫作為語(yǔ)言知識的來(lái)源,從雙語(yǔ)對齊的口語(yǔ)語(yǔ)料庫中獲取翻譯知識,統計機器翻譯又進(jìn)一步發(fā)展成了神經(jīng)機器翻譯(neural machine translation, NMT),口語(yǔ)神經(jīng)機器翻譯正確率已經(jīng)超過(guò)了 90%,針對日?谡Z(yǔ)的神經(jīng)機器翻譯基本上已經(jīng)可以付諸實(shí)用了。
但是,在這種神經(jīng)機器翻譯中,語(yǔ)言之間的翻譯細節還是一個(gè)黑箱(black box),盡管翻譯的結果不錯,我們對于其中的語(yǔ)言處理機制仍然是不清楚的,在語(yǔ)言學(xué)理論上,我們還難以做出科學(xué)的解釋! ∽罱,深度學(xué)習向神經(jīng)網(wǎng)絡(luò )中融入了記憶機制,把基于理性主義的知識驅動(dòng)與基于經(jīng)驗主義的數據驅動(dòng)結合起來(lái),架起了符號主義與聯(lián)接主義之間的橋梁。這應當是今后神經(jīng)機器翻譯發(fā)展的新方向! 】梢钥闯,由于在機器翻譯中引入了語(yǔ)料庫技術(shù),已經(jīng)獲得了巨大的進(jìn)步,這是令人可喜的。不論是書(shū)面語(yǔ)文本語(yǔ)料庫還是口語(yǔ)語(yǔ)料庫,都是機器翻譯得以發(fā)展進(jìn)步的關(guān)鍵性因素。語(yǔ)料庫對于機器翻譯的發(fā)展具有舉足輕重的作用! ∧壳,漢語(yǔ)中介語(yǔ)語(yǔ)料庫建設已經(jīng)取得了很大的成績(jì)。北京語(yǔ)言大學(xué)、南京師范大學(xué)、魯東大學(xué)、暨南大學(xué)、中山大學(xué)、上海交通大學(xué)、廈門(mén)大學(xué)、臺灣師范大學(xué)先后建立了不同規模的漢語(yǔ)中介語(yǔ)語(yǔ)料庫。香港中文大學(xué)、新疆醫科大學(xué)還建立了漢語(yǔ)口語(yǔ)習得語(yǔ)料庫! ≡谶@些中介語(yǔ)語(yǔ)料庫的基礎上,研究者們進(jìn)行了卓有成效的研究,成果斐然。第三屆漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫國際會(huì )議為交流這些成果提供了一個(gè)很好的交流機會(huì ),我衷心祝賀這次國際會(huì )議成功。