- 翻譯公司資訊
-
大數據時(shí)代,語(yǔ)言服務(wù)行業(yè)將何去何從?
發(fā)布時(shí)間:2017-09-12 14:26 點(diǎn)擊:
為使大數據生成的數字內容有效,需要針對不同渠道將其進(jìn)行轉換,以用于各種用途和其他市場(chǎng)的本地化。這是一個(gè)對于所有譯員來(lái)說(shuō)都充滿(mǎn)機會(huì )的領(lǐng)域。
參加任何一個(gè)會(huì )議你都能發(fā)現常見(jiàn)的行業(yè)術(shù)語(yǔ)流行語(yǔ)多了一些不一樣的東西——“大數據”。還會(huì )聽(tīng)到數字化數據大規模增長(cháng)的消息、某領(lǐng)域知識庫增長(cháng)速度驚人、公司如何來(lái)管理和詮釋來(lái)勢洶洶的數據等。迅速增長(cháng)的內容包括結構化數據庫、應用程序代碼、圖像、視頻文件和文本?赡苓會(huì )聽(tīng)說(shuō)機器學(xué)習和大數據如何使軟件更靈敏、更能滿(mǎn)足客戶(hù)需求。
我們談?wù)摰臄祿卸啻?數字內容、代碼和結構化數據已經(jīng)非常龐大,但仍以驚人的速度24小時(shí)不停增長(cháng)著(zhù)。每一天,世界上就生成2.5兆字節的數據。這些數據來(lái)源很多,包括文件、社交媒體、電子采購交易記錄和手機GPS信號。據估計,每日新增的數據將使全球信息資源庫的信息從2015年的7.9澤字節(7.9×1021字節)增加到2025年的176澤字節。別忘了1澤字節等于1,000,000,000,000,000,000,000字節,這是一個(gè)令人費解的數字,并且這個(gè)總數還不包括每天交流的大量?jì)热荨?br /> 不論創(chuàng )建的內容是什么,其容量之大都給翻譯和本地化帶來(lái)巨大且未實(shí)現的潛能。這對語(yǔ)言行業(yè)來(lái)說(shuō)意味著(zhù)什么,對人工翻譯和機器翻譯又意味著(zhù)什么?
何為大數據?其重要性何在?
我們談?wù)摰拇髷祿傅氖谦@取大量數據和使用軟件工具來(lái)識別以前未被發(fā)現的模式、趨勢、相關(guān)性和關(guān)聯(lián)的新方法。如果你在網(wǎng)上買(mǎi)了一本書(shū),是因為在線(xiàn)零售商告訴你,與你有類(lèi)似瀏覽歷史的顧客都喜歡這本書(shū),那么你就已經(jīng)是大數據分析的受益者了。
過(guò)去幾十年里,商業(yè)、政府和日常生活的數字化使這種做法成為可能。這些信息存儲在巨大的數據庫中,數據庫中有結構化數據,以及大大小小的文檔資料。我們每天用更多的數據來(lái)喂養這只正在不斷成長(cháng)的“野獸”。雖然所有機構都依賴(lài)數據來(lái)運行,但只有少量機構利用數據更好地理解其所在領(lǐng)域人們的行為、偏好和趨勢,這種機構數量雖少,卻呈現出增長(cháng)態(tài)勢。機構利用這些數據作出的分析,可以更好地決定如何推銷(xiāo)產(chǎn)品、幫助客戶(hù)、提高運營(yíng)效率,或者作出其他偉大構想。
他們是怎么做的?使結構化數據和文本富有多樣性并不不容易。對于高度結構化的數據,則使用專(zhuān)門(mén)處理大數據的軟件從大型全網(wǎng)上數據庫中提取。然后,分析師采用新一代的商業(yè)智能和文本分析工具,將這些原始數據轉換成可用的信息和可操作的內容。他們可能會(huì )將交易數據與服務(wù)器日志,點(diǎn)擊流數據,社交媒體內容、客戶(hù)電子郵件文本,傳感器數據和電話(huà)記錄結合起來(lái),再提取出數據分析。他們提取分析數據時(shí),也使用高級分析工具,包括統計分析、數據和內容挖掘、預測分析和文本分析。傳統的商業(yè)智能和現代數據可視化軟件可幫助分析師以人類(lèi)可讀的形式呈現出他們的發(fā)現。
語(yǔ)言行業(yè)實(shí)際上是首個(gè)對大數據應用表現出興趣的領(lǐng)域之一。早期的主流應用就有谷歌和微軟推出的統計機器翻譯(SMT)。2011年卡門(mén)森斯顧問(wèn)公司(CSA)在一份機器翻譯(MT)發(fā)展趨勢報告中指出,這些基于統計的方法都是大數據在MT領(lǐng)域的應用,因為它們必須用到大量的雙語(yǔ)數據。例如,它們會(huì )將英文源文件與人工翻譯后的俄文文件進(jìn)行比對。
簡(jiǎn)單來(lái)說(shuō),SMT可以通過(guò)將源文件中的零和一與譯文中的相關(guān)信息進(jìn)行對比,找出其中的相關(guān)性和翻譯模式。換句話(huà)說(shuō),計算機強大的處理能力可將文件與其譯文進(jìn)行拆分,然后分析其中的翻譯模式并預測未存儲文本的譯文。這種分析大大加快了語(yǔ)言支持的速度,而不是像從前MT那樣要依靠語(yǔ)言專(zhuān)家團隊來(lái)創(chuàng )建語(yǔ)法,把它們整理成翻譯規則,創(chuàng )建雙語(yǔ)詞典,之后還要不斷地在發(fā)現問(wèn)題后作出修改以及添加規則。
2011年CSA在一份報告中預測專(zhuān)家在處理更多的語(yǔ)言種類(lèi)和大量的多語(yǔ)言?xún)热輹r(shí),會(huì )使用這些基于數學(xué)的大數據算法來(lái)解決不同語(yǔ)言之間的溝通與營(yíng)銷(xiāo)問(wèn)題,這已經(jīng)成為事實(shí)。
過(guò)去幾年里,基于大數據分析的MT使用頻率早已超過(guò)了第一代基于規則的解決方案。Google翻譯吸引了大量的用戶(hù),這證明其操作簡(jiǎn)單、易于領(lǐng)會(huì ),從某種程度上說(shuō),也是MT輸出的質(zhì)量得到提高的結果。盡管學(xué)術(shù)研究表明BLEU7(雙語(yǔ)評估替代技術(shù))等流行的質(zhì)量評估系統已經(jīng)有了提高,但這種提高并不是簡(jiǎn)單的累加,在不同語(yǔ)言和不同可譯內容類(lèi)型(例如常規文本、音頻、視頻和社交媒體)之間,翻譯結果也會(huì )出現較大的差異。因此,能提升翻譯質(zhì)量的數據很少,除非用戶(hù)對翻譯質(zhì)量沒(méi)有很高的期待。
像Amazon Web Services和Microsoft這樣基于云計算并能無(wú)限使用的算法能為這些大數據實(shí)踐提供支持。隨著(zhù)數以?xún)|計的設備(如傳感器、嵌入式控制器、可穿戴設備、健康檢查器以及尚未發(fā)明的小部件)接入互聯(lián)網(wǎng),這類(lèi)獲取和分析方式將會(huì )繼續發(fā)展成為“物聯(lián)網(wǎng)”。
為使大數據生成的數字內容有效,需要針對不同渠道,將其進(jìn)行轉換,以用于各種用途和其他市場(chǎng)的本地化。企業(yè)和政府規劃人員早已了解到只用一種語(yǔ)言提供所有數字化信息是不夠的。他們的任務(wù)是盡可能多地使用數據來(lái)支持重要人群的用戶(hù)體驗。否則就不可能吸引并留住國內外的多元文化受眾。
只需考慮翻譯的必要要求,使其在轉換成另一種語(yǔ)言時(shí)能夠面向更廣泛的受眾。據估計,要提供14種語(yǔ)言才能滿(mǎn)足世界上90%經(jīng)濟活躍人口的需求,但大多數網(wǎng)站最多只支持六種語(yǔ)言或地區。許多公司的產(chǎn)品和文件本地化工作都很滯后?谧g活動(dòng)更是受到限制。
隨著(zhù)各機構產(chǎn)生的數據越來(lái)越多,人們也越來(lái)越渴望為更多受眾提供產(chǎn)品和服務(wù)。近期CSA對于客戶(hù)方面受訪(fǎng)者的調查報告顯示,他們計劃在未來(lái)三年內將翻譯量增加67%,從平均每年的5.9億字增至9.9億字。這種增長(cháng)是語(yǔ)言行業(yè)現有方式無(wú)法滿(mǎn)足的,并且在CSA調查樣本中,買(mǎi)家希望能結合供應商后期編輯內容和原始MT來(lái)解決這種增長(cháng)需求。
大數據在當代的應用,及其在未來(lái)的應用
各機構表示,要實(shí)現他們增加翻譯量的計劃,會(huì )耗盡所有現有譯員和短期內會(huì )進(jìn)入該領(lǐng)域的譯員的精力。
為了滿(mǎn)足日益增長(cháng)的翻譯需求,各機構紛紛采取措施提高譯員和機器翻譯的生產(chǎn)力,以解決翻譯量和周轉時(shí)間的挑戰,以及多種目標語(yǔ)言處理和預算有限的問(wèn)題。公司對人工翻譯和后期編輯MT進(jìn)行投資,以應用于重要的業(yè)務(wù)內容,如比較固定的產(chǎn)品和營(yíng)銷(xiāo)材料。例如,消費者要依靠大批數量不斷增長(cháng)的翻譯提供商,使用機器翻譯對源材料進(jìn)行預處理,然后語(yǔ)言專(zhuān)家再對輸出材料進(jìn)行人工編輯。一小部分客戶(hù)組織也將未經(jīng)編輯的機器翻譯輸出材料直接用于商業(yè)領(lǐng)域,比如“常見(jiàn)問(wèn)題”和“知識庫”。
除了使用機器翻譯一些有限的商務(wù)文本外,一些消費者也開(kāi)始使用機器翻譯處理一些用戶(hù)生成的內容,例如過(guò)去一些機構不愿翻譯的產(chǎn)品評估、酒店評論和論壇討論等。但CSA的研究顯示,線(xiàn)上消費者和商業(yè)買(mǎi)家都喜歡翻譯用戶(hù)評論,即使這些評論都已經(jīng)翻譯過(guò)了。
為何大數據的數量與翻譯消費者和提供商有關(guān)
大數據代表了大量的數字,但翻譯行業(yè)的數據對于大數據來(lái)說(shuō)簡(jiǎn)直是冰山一角。我們只需看看書(shū)面單詞以及它們與每天生成的2.5兆字節數據有什么關(guān)系就知道了。
盡管當今的目標是使人類(lèi)更加具有生產(chǎn)力,以節約時(shí)間和金錢(qián),但全球的在線(xiàn)內容遠遠無(wú)法適用于所有語(yǔ)言。從多年的研究和咨詢(xún)中可知,是否投資翻譯、本地化和口譯的討論都必須先審查可用的數據。
CSA決定調查本地化行業(yè)面臨的眾多挑戰,從翻譯內容的角度看,從所有可譯數據中找出應該翻譯什么。我們決定從某一天的數字內容輸出開(kāi)始,確定應該翻譯什么,如果整個(gè)語(yǔ)言行業(yè)只處理這些內容并且沒(méi)有積壓的數據,那么到底應該翻譯什么。
什么是數據?數據就是每天數字化所創(chuàng )建的一切,包括從文檔到SQL數據,從遙測技術(shù)到數字多媒體技術(shù)。我們先將這個(gè)假設應用于外包服務(wù)的支出。據估計,多種形式的翻譯——包括人工翻譯、譯后編輯、轉錄以及網(wǎng)站全球化和以文本為中心的本地化翻譯在381億美元的語(yǔ)言服務(wù)和技術(shù)市場(chǎng)中占264億美元。
然后,我們算出單詞每日花費的金額。我們將26.4億美元平均分在365天里,估計翻譯行業(yè)日值7200萬(wàn)美元。若假設每個(gè)字20美分,則預計專(zhuān)業(yè)譯員每天處理近3.62億個(gè)詞。然后,我們將每個(gè)詞轉換成9.71個(gè)字符,即相當于七十億字節的雙字節字符。(請注意,某些語(yǔ)言較其他語(yǔ)言平均每個(gè)字的字符較少)。
最后,我們將其與日常創(chuàng )建的內容量進(jìn)行比較。當我們將2.5兆字節除以語(yǔ)言服務(wù)提供商產(chǎn)生的目標語(yǔ)言?xún)热莸臄盗繒r(shí),預計翻譯公司每天只能處理全部創(chuàng )建內容的0.00000000009%。然而,我們可以保守估計,絕大多數的數據將永遠不會(huì )被翻譯——要么材料不可譯,要么翻譯此類(lèi)材料沒(méi)有意義。
但是今天有些沒(méi)有翻譯的東西(如用戶(hù)評論和社交媒體帖子),隨著(zhù)企業(yè)努力提高客戶(hù)體驗,將來(lái)也會(huì )被翻譯。即使排除那些極小比例的日常字節,外包內容的翻譯量仍然遠低于每天創(chuàng )建內容的1%。別忘了我們討論的是僅僅一天內的翻譯缺口。這并不包括尚未翻譯的積壓內容。
該假設的結果表明,若內容被完全翻譯,通常在網(wǎng)上只會(huì )被翻譯成六種語(yǔ)言(在其他地方則更少)。這遠遠低于國內外交流和商業(yè)中重要的網(wǎng)上語(yǔ)言總數。
當然,還有許多影響計算的其他變量和因素。例如,應該翻譯卻沒(méi)有翻譯的,以及現有內容的許多部分。但能確定的是有大量?jì)热萦肋h不會(huì )被翻譯或本地化。這不僅對技術(shù)公司而言是機會(huì ),對語(yǔ)言行業(yè)而言也是如此。
大數據對語(yǔ)言行業(yè)而言意味著(zhù)什么
我們討論的大數據和翻譯需求為語(yǔ)言行業(yè)展現了機會(huì ),但是許多譯員由此擔心MT的廣泛應用會(huì )剝奪了他們的工作機會(huì )。我們的研究估計,譯員實(shí)際上會(huì )因MT而失去一些較低價(jià)值的工作,但在可預見(jiàn)的將來(lái),譯員的總體工作量將以穩定的速度增長(cháng)。
如果我們還考慮擴展譯后編輯——可以肯定,這是一個(gè)有爭議的話(huà)題——相對于當下對未來(lái)譯員的依賴(lài),譯后編輯更加依賴(lài)專(zhuān)業(yè)人才。因此,如果要跟上需求,譯員們需要利用大數據來(lái)提高生產(chǎn)率。一些人將更進(jìn)一步成為可以構建、訓練和改進(jìn)MT引擎的專(zhuān)家。
在生產(chǎn)力方面,我們看到今天的大數據是基于統計的MT引擎,可用來(lái)補充其他MT模型的譯后編輯過(guò)程。與MT的連接可用于CAT工具,如Kilgray memoQ、Memsource Cloud和SDL Trados Studio。同時(shí),像Lilt這樣的創(chuàng )業(yè)公司也使用類(lèi)似CAT的工具中的MT輸出加速人工翻譯進(jìn)程。軟件開(kāi)發(fā)人員也向我們表明,他們正在評估大數據機器學(xué)習技術(shù),以改進(jìn)術(shù)語(yǔ)、翻譯記憶庫、消歧,以及對其他各種內容的創(chuàng )建、本地化和任務(wù)審校。簡(jiǎn)而言之,大數據將改進(jìn)譯員使用的大多數軟件工具。隨著(zhù)MT技術(shù)的發(fā)展,口譯員也將受益匪淺。
大數據對語(yǔ)言專(zhuān)家而言意味著(zhù)什么?正如他們看到的翻譯記憶庫和術(shù)語(yǔ)管理一樣,語(yǔ)言專(zhuān)家將能使用另一種工具。由于這種軟件會(huì )對源內容的分析進(jìn)行改進(jìn),最終買(mǎi)方和代理方的雇主都希望他們使用這種軟件提高工作效率。
我們2016年針對語(yǔ)言服務(wù)提供商的調查發(fā)現,49%的受訪(fǎng)者已經(jīng)承認將MT譯后編輯作為其服務(wù)。早在2012年,我們的研究就顯示,21%的自由職業(yè)者都使用過(guò)這項技術(shù)。
有些人將舍棄傳統的翻譯公司結構,成為大數據專(zhuān)家。他們將創(chuàng )建行業(yè)和領(lǐng)域專(zhuān)用記憶庫并收集、分析和翻譯內容。語(yǔ)言專(zhuān)業(yè)人員與數據應用程序合作利用相關(guān)結果“豐富”有用元數據(如主題分類(lèi)、名稱(chēng)和實(shí)體分類(lèi)等)的內容策略?xún)A向正在出現。這種傾向將使本地化人員能夠創(chuàng )造特殊的市場(chǎng)價(jià)值。有些將采取下一步措施進(jìn)入全球主流營(yíng)銷(xiāo),增加他們的投資組合服務(wù),如跨國商業(yè)智能,以幫助公司更好地了解其市場(chǎng),或跨語(yǔ)言語(yǔ)義和情緒分析,以消除多語(yǔ)言的消費者和商業(yè)買(mǎi)家的多語(yǔ)言?xún)热荨?br /> 大數據大大增加了內容量。同時(shí),基于大數據科學(xué)的自動(dòng)化內容豐富和分析工具將能夠訓練更復雜的工具,幫助人們翻譯不斷增長(cháng)的內容,并使機器能夠縮小生成的內容與實(shí)際翻譯內容之間的差距。毫無(wú)疑問(wèn),一些語(yǔ)言專(zhuān)家會(huì )將這些基于大數據的創(chuàng )新視為威脅。而另一些人則會(huì )將這種進(jìn)步看成是一種機遇,它可以幫助確定源內容的意義,增強其他工具的有用性,以此提高生產(chǎn)率。
雖然這還沒(méi)有發(fā)生,但我們推測,由這些現象推動(dòng)的MT可以消除譯員的“隱身衣”,給予他們更大的認可和更高的地位。即使機器翻譯的比例大于人工翻譯的比例,人工翻譯的數量也絕對會(huì )增加,例如生命科學(xué)等領(lǐng)域。反過(guò)來(lái),人工翻譯的感知價(jià)值可能會(huì )增加。這是為什么呢?因為當采用人工翻譯時(shí),則意味著(zhù)這項工作非常非常重要。這跟會(huì )計差不多。軟件可以處理日常事務(wù),但是當出現問(wèn)題或事情至關(guān)重要時(shí),還是需要資深會(huì )計來(lái)進(jìn)行處理。
由于語(yǔ)際交流變得透明化,我們預測出現高價(jià)值交易(即需要筆譯譯員和口譯譯員)的情況將會(huì )增多,而不是減少。如果提供商費用增加,并且公司使用MT來(lái)滿(mǎn)足較大比例的語(yǔ)言需求,則會(huì )使譯員受益,因為他們付出了很大的代價(jià)來(lái)支持客戶(hù)體驗和其他高價(jià)值互動(dòng)的最重要內容。
Unitrans世聯(lián)翻譯公司在您身邊,離您近的翻譯公司,心貼心的專(zhuān)業(yè)服務(wù),專(zhuān)業(yè)的全球語(yǔ)言翻譯與信息解決方案供應商,專(zhuān)業(yè)翻譯機構品牌。無(wú)論在本地,國內還是海外,我們的專(zhuān)業(yè)、星級體貼服務(wù),為您的事業(yè)加速!世聯(lián)翻譯公司在北京、上海、深圳等國際交往城市設有翻譯基地,業(yè)務(wù)覆蓋全國城市。每天有近百萬(wàn)字節的信息和貿易通過(guò)世聯(lián)走向全球!積累了大量政商用戶(hù)數據,翻譯人才庫數據,多語(yǔ)種語(yǔ)料庫大數據。世聯(lián)品牌和服務(wù)品質(zhì)已得到政務(wù)防務(wù)和國際組織、跨國公司和大中型企業(yè)等近萬(wàn)用戶(hù)的認可。 專(zhuān)業(yè)翻譯公司,北京翻譯公司,上海翻譯公司,英文翻譯,日文翻譯,韓語(yǔ)翻譯,翻譯公司排行榜,翻譯公司收費價(jià)格表,翻譯公司收費標準,翻譯公司北京,翻譯公司上海。- 上一篇:語(yǔ)料庫是語(yǔ)言知識的可靠來(lái)源
- 下一篇:翻譯的兩難困境