10年專業(yè)筆譯品牌?
10年數(shù)萬場口譯
專業(yè)留學移民翻譯
多語言網(wǎng)站翻譯
89種語言服務
機器翻譯(Machine Translation),又稱為自動翻譯,是利用計算機把一種自然源語言轉變?yōu)榱硪环N自然目標語言的過程,它是自然語言處理(Natural Language Processing)的一個分支,與計算語言學(Computational Linguistics)、自然語言理解(Natural Language Understanding)之間存在著密不可分的關系。
步入21世紀以來,隨著國際互聯(lián)網(wǎng)(Internet)的迅猛發(fā)展和世界經(jīng)濟一體化的加速,網(wǎng)絡信息急劇膨脹,國際交流日益頻繁,如何克服語言障礙已經(jīng)成為國際社會共同面對的問題。由于人工翻譯的方式遠遠不能滿足需求,利用機器翻譯技術協(xié)助人們快速獲取信息,已經(jīng)成為必然的趨勢。
在方法論層面,機器翻譯系統(tǒng)可分為基于規(guī)則(Rule-Based)和基于語料庫(Corpus-Based)兩大類。前者是由詞典和語法規(guī)則庫構成翻譯知識庫,后者則是以語料的應用為核心,由經(jīng)過劃分并具有標注的語料庫構成知識庫。其中,基于語料庫的方法又可以分為基于統(tǒng)計(Statistics-based)的方法和基于實例(Example-based)的方法。
換個角度說,基于規(guī)則的方法屬于理性主義范疇,基于語料庫的方法則屬于經(jīng)驗范疇。回顧近六十年的機器翻譯發(fā)展史,翻譯方法論的演變實際上就是“經(jīng)驗”與“理性”的相互“交流”。
1.主導地位的基于規(guī)則的方法
(1)基于規(guī)則方法的發(fā)展歷程
早期的機器翻譯系統(tǒng)基本上都采用基于規(guī)則的方法。1954年,世界上第一臺機器翻譯系統(tǒng)IBM701誕生,它只有250條俄語詞匯、6條基本語法規(guī)則以及49個俄語翻譯例句,通過直譯法完成了世界上第一次機器翻譯實驗。所謂直譯法,即把源語言中的單詞或句子直接替換成相應目標語的單詞或句子,必要時對詞序進行適當?shù)恼{整。直譯法一般是針對特殊的語言對來設計,系統(tǒng)移植比較困難,缺乏通用性。
典型的直譯法翻譯系統(tǒng)是Systran系統(tǒng),它是美國在喬治敦大學機器翻譯系統(tǒng)的基礎上進一步開發(fā)的,設計之初只能完成從俄文到英文的翻譯,后來改進為可實現(xiàn)多語種之間的互譯。這個系統(tǒng)對機器翻譯的后續(xù)發(fā)展有著很大的影響,目前仍有不少翻譯系統(tǒng)采用直譯法。
在直譯法逐步改進的同時,基于轉換的方法也相伴而生。所謂基于轉換,就是對句子結構進行層次分析,在詞對詞翻譯的基礎上,根據(jù)不同語言的不同規(guī)則生成相應的譯文。這種方法需要三部字典:源語字典、源語—目標語雙語字典和目標語字典。
最直觀的例子就是中英文互譯,中國人的名字是先姓后名,美國人的名字是先名后姓;中文句子是主謂賓加名詞短語,英文句子是主謂賓加從句。諸如此類的不同規(guī)則,在轉換法的翻譯過程中,都需要通過三部字典中的特定描述才能順利轉化。
伴隨著直譯法和轉換法的發(fā)展,另外一種基于規(guī)則的方法—中間語法應運而生。它先把源語言分析轉換成對所有語言都適合的一種句法—語義表示,再由此轉換為目標語言。也就是說,基于該方法的翻譯過程包括兩個階段:從源語言到中間語言,再從中間語言到目標語言。
這種方法有一個典型的好處:節(jié)省開發(fā)費用。當需要多種語言翻譯的時候,可以直接通過中間語言翻譯到目標語言,而不需要每一種語言都設立一套規(guī)則程序。假如有6種語言需要彼此相互翻譯,采用基于轉換的方法需要30個語言轉換模塊(每對語言都需要一個模塊),而采用中間語法的系統(tǒng)只需要12個模塊。
雖然提出了三種方法,但顯然當時的研究者還沒有意識到機器翻譯的難度,這些簡單的方法對于稍復雜的句子就已經(jīng)無能為力了。隨著研究的深入,人們逐漸認識到:要完成機器翻譯,計算機必須能夠在一定程度上理解源語言的句子。與此同時,人工智能這門學科在20世紀70年代有了很大的發(fā)展,各種知識表示和知識推理的理論和算法紛紛被研究者提出。人們對自然語言的理解和機器翻譯的認識有了質的飛躍。
這一階段研究人員對基于規(guī)則的方法進行了創(chuàng)新性的改進,其主要特點是對語言進行了深層次的分析、轉換和生成,也就是說,翻譯不再是只在句子的表層(詞序列)上進行,而是在句子的某種更深層結構(例如句法結構、語義結構或知識表示)的層面上進行。要實現(xiàn)這一點,系統(tǒng)就需要大量的語言知識和翻譯知識,為此,機器翻譯程序采用了數(shù)據(jù)與程序相分離的存儲形式,語言知識和翻譯知識以數(shù)據(jù)形式存在,而翻譯程序利用這些數(shù)據(jù)進行翻譯。這種數(shù)據(jù)最常見的表現(xiàn)形式就是規(guī)則和詞典。
基于規(guī)則的機器翻譯系統(tǒng)在1980年代達到一個高峰期,市場上涌現(xiàn)出很多基于規(guī)則的機器翻譯系統(tǒng),其中一些已經(jīng)步入實用化階段。國際上也出現(xiàn)了一些大規(guī)模的研究計劃,例如歐盟的Eurotran項目和日本的亞洲五國語言機器翻譯項目。即使到目前,大多數(shù)實用型機器翻譯系統(tǒng)也都是以基于規(guī)則為主。整體而言,基于規(guī)則方法的翻譯系統(tǒng)覆蓋面寬,但譯文質量的一致性有待提高。
(2)基于規(guī)則方法的現(xiàn)狀
縱觀機器翻譯發(fā)展的歷程,可以看出,機器翻譯的主流方法一直是基于規(guī)則的方法。國際上有影響的機器翻譯系統(tǒng)基本上都需要規(guī)則的貢獻,即使在多種技術并存的系統(tǒng)中也要包含規(guī)則,基于規(guī)則的機器翻譯技術思想是被普遍接受的、成熟的,也是到目前為止應用最廣的方法。基于規(guī)則的機器翻譯系統(tǒng)就是對語言語句的詞法、語義進行分析、判斷和取舍,然后重新排列組合,最后生成等價的目標語言。
基于規(guī)則的機器翻譯方法導致了程序工作者和語言工作者的一種合作范式:程序工作者和語言工作者先共同制定數(shù)據(jù)規(guī)范,確定翻譯算法、語言知識和翻譯知識的表示形式,然后程序工作者編寫程序實現(xiàn)翻譯算法,語言工作者編寫語言知識和翻譯知識驅動翻譯算法的運行,兩者分工合作,缺一不可。
在這種工作范式下,系統(tǒng)翻譯性能通常受到兩方面因素的制約:一是算法的設計是否合理,另一個是語言知識是否足夠豐富,其中最主要的瓶頸還在于后者。一旦翻譯程序編程結束,并經(jīng)過調試穩(wěn)定以后,基本上就不需要再做修改,改進翻譯性能的任務完全落在了語言工作者的身上。對于基于規(guī)則的機器翻譯系統(tǒng)而言,知識獲取實際上是最大的瓶頸。通常,經(jīng)過一個人一年左右的調試就能得到一個可以翻譯簡單句子的演示系統(tǒng),但要真正得到一個初步實用的機器翻譯系統(tǒng),非得要通過一批人經(jīng)年累月的調試和積累不可。
在上述背景下,一方面,研究者們已經(jīng)建立了一定規(guī)模的規(guī)則庫,覆蓋了相當多的語言現(xiàn)象。另一方面,基于規(guī)則的機器翻譯技術不斷借鑒和融合其他方法的優(yōu)點,這些變化主要體現(xiàn)在:
在規(guī)則的獲取方面,傳統(tǒng)的規(guī)則方法主要依靠語言學家的總結進行調試,而現(xiàn)在更加重視從大規(guī)模語料庫中自動獲取規(guī)則。
傳統(tǒng)的規(guī)則方法往往偏重描述粗粒度、全局化的大范圍語言學規(guī)則知識,而現(xiàn)在則更加重視描述細粒度、局部的小范圍的語言學知識,呈現(xiàn)出“小規(guī)則庫、大詞典”的趨勢。
在知識表示方面,為了以更小的粒度、更加準確地對翻譯知識進行描述,一般要對單純的與上下文無關的規(guī)則作一些改進。改進的方法有以下兩種:一種是采用特征結構與合一算法,例如LFG、GPSG 等等,這種方法一般要求具有較好的語言學背景;另外一種是采用詞匯化的方法對規(guī)則加以細化。
傳統(tǒng)的規(guī)則方法采用的往往是非此即彼的確定性原則,系統(tǒng)的魯棒性較差,而現(xiàn)在的規(guī)則系統(tǒng)中一般都引入各種形式的概率或者評分函數(shù),系統(tǒng)的魯棒性有所提高。概率與評分函數(shù)方法的區(qū)別在于:前者一般有比較嚴格的數(shù)學模型做基礎,概率值的計算要以對大規(guī)模語料庫的統(tǒng)計為依據(jù);后者的主觀性較強,評分規(guī)則的確定以及具體規(guī)則的分值都是人為的,人們可以根據(jù)經(jīng)驗進行調整。
隨著機器翻譯研究的不斷深入,規(guī)則方法存在的問題逐漸暴露出來。該方法最大的問題在其知識獲取方面,單純依靠語言工作者人工編寫規(guī)則似乎永遠也不能滿足實際應用的需要。一個在市場上銷售的機器翻譯系統(tǒng)通常都要經(jīng)過數(shù)十人乃至數(shù)百人的調試,但翻譯效果還是遠遠不能達到令人滿意的程度。
更為糟糕的是,人工添加規(guī)則的做法導致規(guī)則庫的規(guī)模更大,而系統(tǒng)性能的改進則更為困難。因為一方面規(guī)則庫越大,規(guī)則之間的沖突就越多,出現(xiàn)了所謂的“蹺蹺板現(xiàn)象”,系統(tǒng)雖然對某些句子翻譯效果好了,但對另外一些句子的翻譯效果反而差了,系統(tǒng)的整體性能并沒有提高;另一方面,在后面加入的規(guī)則通常都是一些粒度非常小的規(guī)則,只能處理非常個別的語言現(xiàn)象,對系統(tǒng)整體性能的改進很小,整個系統(tǒng)的性能提升極為緩慢,而這個時期一些大型的機器翻譯研究項目也都以失敗而告終。基于規(guī)則的機器翻譯方法似乎走到了盡頭。
2.異軍突起的基于統(tǒng)計的方法
基于統(tǒng)計的機器翻譯方法把機器翻譯看成是一個信息傳輸?shù)倪^程,用一種信道模型對機器翻譯進行解釋。這種思想認為,源語言句子到目標語言句子的翻譯是一個概率問題,任何一個目標語言句子都有可能是任何一個源語言句子的譯文,只是概率不同,機器翻譯的任務就是找到概率最大的句子。因此統(tǒng)計機器翻譯又可以分為以下幾個問題:模型問題、訓練問題、解碼問題。所謂模型問題,就是為機器翻譯建立概率模型,也就是要定義源語言句子到目標語言句子的翻譯概率的計算方法。而訓練問題,是要利用語料庫來得到這個模型的所有參數(shù)。所謂解碼問題,則是在已知模型和參數(shù)的基礎上,對于任何一個輸入的源語言句子,去查找概率最大的譯文。
實際上,用統(tǒng)計學方法解決機器翻譯問題的想法并非是20 世紀90年代的全新思想,1949年W. Weaver就已經(jīng)提出使用這種方法,只是由于喬姆斯基(Chomsky)等人的批判,這種方法很快就被放棄了。批判的理由主要是一點:語言是無限的,基于經(jīng)驗主義的統(tǒng)計描述無法滿足語言的實際要求。另外,限于當時的計算機速度,統(tǒng)計的價值也無從談起。而現(xiàn)在,計算機不論從速度還是從容量方面都有了大幅度的提高,昔日大型計算機才能完成的工作,今日小型工作站或個人計算機就可以完成了。此外,統(tǒng)計方法在語音識別、文字識別、詞典編纂等領域的成功應用也表明這一方法在語言自動處理領域還是很有成效的。
統(tǒng)計機器翻譯方法的數(shù)學模型是由國際商業(yè)機器公司(IBM)的研究人員提出的。統(tǒng)計機器翻譯的基本思想是:從理論上說,這種模型只考慮了詞與詞之間的線性關系,沒有考慮句子的結構。這在兩種語言的語序相差較大時效果可能不會太好。如果在考慮語言模型和翻譯模型時將句法結構或語義結構考慮進來,應該會得到更好的結果。
統(tǒng)計方法的興起緣于上世紀九十年代以來互聯(lián)網(wǎng)的廣泛應用,整個社會的信息呈現(xiàn)爆炸趨勢,機器翻譯的需求凸顯。與此同時,人們對于提高機器翻譯的質量和速度有了新的想法,基于“統(tǒng)計”的方法備受關注。參與這個領域研究的人數(shù)和發(fā)表論文的數(shù)量都呈指數(shù)型增長。統(tǒng)計機器翻譯技術本身也經(jīng)過了一個不斷發(fā)展的過程,統(tǒng)計集群翻譯的模型框架從早期的噪聲信道模型發(fā)展到目前普遍采用的對數(shù)線性模型,其中最主要的統(tǒng)計翻譯模型也從早期的基于詞的模型發(fā)展到了目前主流的基于短語的模型,以及目前很多人都在進行的基于句法的統(tǒng)計翻譯模型研究。
目前,Google的在線翻譯已為人熟知,其背后的技術即為基于統(tǒng)計的機器翻譯方法,基本運行原理是通過搜索大量的雙語網(wǎng)頁內容,將其作為語料庫,然后由計算機自動選取最為常見的詞與詞的對應關系,最后給出翻譯結果。不可否認,Google采用的技術是先進的,但它還是經(jīng)常鬧出各種“翻譯笑話”。其原因在于:基于統(tǒng)計的方法需要大規(guī)模雙語語料,翻譯模型、語言模型參數(shù)的準確性直接依賴于語料的多少,而翻譯質量的高低主要取決于概率模型的好壞和語料庫的覆蓋能力?;诮y(tǒng)計的方法雖然不需要依賴大量知識,直接靠統(tǒng)計結果進行歧義消解處理和譯文選擇,避開了語言理解的諸多難題,但語料的選擇和處理工程量巨大。因此目前通用領域的機器翻譯系統(tǒng)很少以統(tǒng)計方法為主。
3.另辟蹊徑的基于實例的方法
與統(tǒng)計方法相同,基于實例的機器翻譯方法也是一種基于語料庫的方法,其基本思想由日本著名的機器翻譯專家長尾真提出,他研究了外語初學者的基本模式,發(fā)現(xiàn)初學外語的人總是先記住最基本的英語句子和對應的日語句子,而后做替換練習。參照這個學習過程,他提出了基于實例的機器翻譯思想,即不經(jīng)過深層分析,僅僅通過已有的經(jīng)驗知識,通過類比原理進行翻譯。其翻譯過程是首先將源語言正確分解為句子,再分解為短語碎片,接著通過類比的方法把這些短語碎片譯成目標語言短語,最后把這些短語合并成長句。對于實例方法的系統(tǒng)而言,其主要知識源就是雙語對照的實例庫,不需要什么字典、語法規(guī)則庫之類的東西,核心的問題就是通過最大限度的統(tǒng)計,得出雙語對照實例庫。
基于實例的機器翻譯對于相同或相似文本的翻譯有非常顯著的效果,隨著例句庫規(guī)模的增加,其作用也越來越顯著。對于實例庫中的已有文本,可以直接獲得高質量的翻譯結果。對與實例庫中存在的實例十分相似的文本,可以通過類比推理,并對翻譯結果進行少量的修改,構造出近似的翻譯結果。
這種方法在初推之時,得到了很多人的推崇。但一段時期后,問題出現(xiàn)了。由于該方法需要一個很大的語料庫作為支撐,語言的實際需求量非常龐大。但受限于語料庫規(guī)模,基于實例的機器翻譯很難達到較高的匹配率,往往只有限定在比較窄的或者專業(yè)的領域時,翻譯效果才能達到使用要求。因而到目前為止,還很少有機器翻譯系統(tǒng)采用純粹的基于實例的方法,一般都是把基于實例的機器翻譯方法作為多翻譯引擎中的一個,以提高翻譯的正確率。
4.各有長短 融合使用
應該說,無論是直譯法、轉換法、中間語法,還是實例法和統(tǒng)計法,都是各有長短。作為理性主義范疇,前面三者屬于基于規(guī)則的方法。它的典型缺點是技術粒度太大,即計算機語言無法完全描述實際語言組合中無限豐富的規(guī)則。
而作為經(jīng)驗主義范疇,后面兩者屬于基于語料庫的方法,其典型缺點是數(shù)據(jù)稀疏。也就是說,由于語言的無限性,任何高性能的計算機都無法統(tǒng)計出所有短語的使用情況,總是會存在疏漏。
隨著這些方法的各自缺陷逐步為人們所認知,自上世紀90年代以來,機器翻譯系統(tǒng)的實現(xiàn)越來越多地集成了不同的方法和策略,基于單一方法的產(chǎn)品越來越少。其中最具有代表性的無疑是尼倫伯格提出的多引擎機器翻譯系統(tǒng),即系統(tǒng)中集成多種機器翻譯的實現(xiàn)方法,每種方法構成的翻譯模塊作為一個引擎,多個引擎協(xié)同配合,共同完成翻譯工作。
我們判斷:在今后的機器翻譯研究中,多種方法互相借鑒,互相融合的趨勢會越來越明顯。基于規(guī)則的方法與基于語料庫的方法相結合,機器翻譯與翻譯記憶相結合,很可能是今后研究發(fā)展的主流方向。