1
2
3
4
 關于我們
公司簡介
公司信息
組織結構
公司團隊
網站公告
翻譯資訊
常見問題
專業詞匯
行業規范
質量保證
合作流程
隱私保密
實習基地
人才招聘
聯系信息
  翻譯語種(筆譯)
  英語翻譯  德語翻譯
  日語翻譯  法語翻譯
  韓語翻譯  俄語翻譯
  英語口譯  德語口譯
  日語口譯  法語口譯
  韓語口譯  俄語口譯
  泰語翻譯  越南語翻譯
  意大利翻譯  西班牙翻譯
  葡萄牙翻譯  印度語翻譯
  馬來語翻譯  波斯語翻譯
  冰島語翻譯  老撾語翻譯
  丹麥語翻譯  瑞典語翻譯
  荷蘭語翻譯  藏族語翻譯
  挪威語翻譯  蒙古語翻譯
  拉丁語翻譯  捷克語翻譯
  緬甸語翻譯  印尼語翻譯
  希臘語翻譯  匈牙利語翻譯
  波蘭語翻譯   烏克蘭語翻譯
  芬蘭語翻譯  土耳其語翻譯
更多翻譯語種
     首頁 >>  關于我們>>  翻譯資訊
 


技術界與翻譯界的交鋒:機器翻譯離我們還有多遠?

發布者:上海翻譯公司     發布時間:2019-9-16

  機器翻譯歷史
  機器翻譯的歷史大體可以分為兩大階段,第一階段是從60年代到90年代初期,理性主義方法是主流,主要是讓人類專家觀察語言規律,把它描述成規則,讓機器按照既定規則進行翻譯。第二個階段是90年代,特別是互聯網出現以后,開始從事統計機器翻譯研究,此時數據以及相應的數據驅動方法得到蓬勃發展。
  統計方法比較經典的模型叫做隱變量對數線性模型,它的特點是要設計特征,X代表輸入,Y代表輸出,Z就代表中間的語言結構,通過定義各種特征函數來訓練一個參數,很多工作都集中在如何設計好的特征來描述翻譯規律上。
  但語言太過復雜,窮盡人類智慧也很難把這個特征設計全面,其中一個難點稱之為調序,比如“就中東局勢舉行了一個小時會談”,這是一個典型的介詞短語和動詞短語的組合,在中文中先說介詞短語,再說動詞短語,但在英文中都是反過來的。
  2015年后,深度學習在機器翻譯得到應用。深度學習的主要意義在于它可以從數據中自動提取表示,就不需要像以前一樣設計特征來描述翻譯規則,只需要設計一個網絡,讓機器自動在數據去尋找表述,效果非常好。但還是有難解決的問題,它根本不知道數字是什么意思,不知道為什么出錯,不知道怎么去改動它,而且很難控制。
  目前最核心的技術叫做注意力機制,希望通過自動計算發現中英文之間的相關性,這在整個深度學習里也是非常核心的技術。現在可以利用一些比較新的技術,這個是transformer,希望能夠處理更長的序列。
  機器翻譯旨在彌補人類干不了的場景
  最近幾年出現了一系列機器翻譯應用,比如翻譯機、微信的翻譯服務。機器翻譯很大程度上是為解決不同國家、不同文化之間的溝通問題,如果機器翻譯能在一定程度上取代人、幫助人,溝通的信道會有一個巨大的釋放。那么機器翻譯究竟能否代替人呢?
  宗成慶老師認為,機器翻譯近幾年的進步很大,可以大幅提高翻譯效率,但是機器翻譯的運用需要基于場景和任務,機器翻譯在一些場景下確實能幫助人,比如旅游問路,但是在某些領域,比如高層次的翻譯,要對機器翻譯寄予太多的希望還為時過早。
  張民老師對宗老師的觀點表示贊同,他補充道,機器翻譯要從學術界和產業界兩個側面看。學術界一直可以做下去,產業界里機器翻譯已經蓬勃發展,產業對學術界技術需求強烈,技術達到了產業低端門坎,產業推動技術發展、技術服務行業。
  李長栓老師也認為雖然機器翻譯進步驚人,但不會有取代人的一天,其主要原因在于機器翻譯質量還達不到專業翻譯的要求,單個句子能理解,但通篇沒有邏輯。
  朱靖波老師同意宗老師和張老師的觀點,并舉例說,通常假設翻譯人員的結果完全正確,而技術想要超過100%去達到101%的正確率,這在真理上是無法超越的。
  但是機器翻譯在大數據之后蓬勃發展,并非意在取代人類,比如國家知識產權里幾百萬個專利文檔,只能利用機器翻譯,非人工所為;再比如身在國外,人工翻譯不可能隨時在身邊,只能利用機器翻譯,這都不能算是代替人工翻譯,而是去彌補人工翻譯干不了的應用場景。
  是機器翻譯的問題,還是技術尚未成熟?
  李長栓老師根據自己的使用經驗,歸納了一下機器翻譯中遇到的主要問題:
  以句子為基礎翻譯,忽略上下文中文長句子翻譯成英文,需要斷成幾句,但斷開之后,后面的句子就沒有主語了,這時候要補充主語。而機器翻譯根據什么補充主語成迷。
  同一個詞出現多個譯文版本比如“訴裁程序”,機器翻譯給出了十幾個譯文版本,這個問題應該可以解決,但是神經網絡翻譯似乎還沒有解決這個問題。
  機械處理信息機器翻譯是依賴于形式的轉換,遇到歧義時是根據概率決定修飾關系;一詞多義也是,即便給了語料庫,但是在同一個專業領域,一個詞也有很多意思。
  朱靖波老師對此表示部分贊同:
  首先,目前基于句子級翻譯系統主要因為具體實現機制的問題,實際上學術界關于篇章級機器翻譯有不少研究工作。基于上下文分析主語省略和指代消解等問題,他更傾向于認為是理解問題而非翻譯問題,但可以將兩者結合起來實現更好的翻譯結果。
  其次,有些問題應該分成兩個環節來考慮,比如原文錯誤,人會通過理解對其進行糾正錯誤后翻譯,但是對于機器翻譯來說,它認為這是用戶想要表達的意思,不能輕易自動修改原文,導致錯誤的翻譯。這就引出一點,機器翻譯是不是和別的技術融合在一起使用的效果更好。
  最后,一詞多義跟結構歧義的問題是現在做得不夠好,不是機器翻譯沒有能力解決,機器翻譯建模的核心就是為了解決這兩個問題。
  宗成慶老師指出,現在機器翻譯的基本假設是,只要收集到足夠多樣本就行。但這個假設是有問題的,第一,模型能否學成存疑,第二,不應該只基于樣本,還有日常生活經歷和常識等。現在的模型還不夠智能,提供足夠的樣本也無法學成,這也是提出基于知識的機器翻譯的原因。
  張民老師從學術界的角度分析了機器翻譯存在的兩個重大問題。一是篇章問題,翻譯本來應該根據上下文理解和邏輯分析,但目前機器翻譯建模方法都是句子對句子,在句子層面把翻譯看作是純數學映射,因此深度學習的方法如果遇上語料訓練缺失的情況急劇下降。二是知識和推理驅動,不僅僅是語言學知識,還包括常識知識、領域知識、世界知識等。
  預訓練的提出與背景補充構想
  劉洋老師舉了一個例子,有高翻在法國為了翻譯一本很厚的地鐵資料,坐了一周的法國地鐵,向乘務員詢問各種信息,后來為核電站翻譯也是如此,要知道設備的用途,他認為翻譯的絕大功夫都是花在對背景知識的理解。
  而反觀現在的機器翻譯,還是基于數據,沒有上升到知識。預訓練是一個非常不一樣的想法,在單語數據上設計相關問題的學習任務,這樣數據幾乎是無限的,然后在上面訓練模型。
  過去一年,預訓練的方法基本刷榜了LP任務,普遍提升8-10個點。但是機器翻譯還沒有這么好的效果,因為翻譯的輸出不是簡單的分類,而是整個序列,這個序列光輸出這個詞,就是指數級的數據,同時還要排準數據和階層,復雜度非常高。
  預訓練和機器翻譯的結合是一個方向,如果提升到基于知識的翻譯系統,顯然是更好的策略。目前比較容易想到的是知識圖譜和機器翻譯結合,但這塊沒有突破性的進展。
  李長栓老師也認為專業翻譯大部分時間是用來查資料的,他舉例,“某一個先生指出,索馬里沿海海島問題,聯絡小組鼓勵通過法律允許根據捕獲和釋放的做法進行起訴”,看 完之后不知所云,這就是機器翻譯的結果。
  這種時候專業翻譯就會去查閱相關資料,明白之后再進行翻譯,“誰誰指出,鑒于一些國家存在先抓后放的做法,某小組鼓勵相關國家通過立法允許起訴”。翻譯是一個不斷調查、不斷獲取文字背后意思的過程,表達的過程是在理解基礎上自然形成的。
  同時李長栓老師也提供了他對機器翻譯的優化思路,機器補充知識是機器的優勢,它有無窮無盡的語料,翻譯某一句話時就可以利用超鏈接等方式提供相關背景,這樣會更有助于翻譯的進行。
  朱靖波老師根據自己的經驗列舉出好的機器翻譯系統需要的三個東西。一是擴大訓練數據規模,提高品質;二是不斷創新技術;三是根據問題不斷打磨,三者缺一不可。他把機器翻譯技術的概念擴大到兩個不同對象之間的等價轉換,并認為機器翻譯與人工智能和NLP不同,機器翻譯是一個產業,機器翻譯+也是一個產業。
  宗成慶老師認為雖然現在機器翻譯問題很多,但是不用悲觀,從研究角度講,只有發現問題才能改進問題,問題代表了進步空間。
  機器翻譯的突破口在于產生新的范式
  朱靖波老師認為未來機器翻譯的突破口在于產學研形成閉環,應用需求不斷推進機器翻譯理論和技術研究。
  劉洋老師表示,必須要在范式上進行革新,要找到好的策略和方法,充分利用非標注數據。或者能把數據用好,或者能夠從未標注數據中提煉出知識,這兩點都非常關鍵。
  李長栓老師認為,機器翻譯在中英文間的切換還是很困難,但是在新聞語言等領域,機器翻譯的質量已經很高。未來的突破還是要回歸到范式或者是思維方法的改變上來,從句子當中抓取意思,再重新表達,這是人做翻譯時的思維過程,未來機器翻譯也是這樣。
  宗成慶老師補充道,高質量的機器翻譯結果并非一定要達到信達雅,那是人類翻譯的終極目標,目前在某些場景的翻譯結果已經很好,未來還需要解決更細節的問題。從某種意義上講,現在神經網絡機器翻譯的性能已經接近天花板,未來一定是對翻譯模型進行改進和提高,從技術應用和產業發展的角度講,需要明確具體需求和任務,針對性地做定向開發,這是推動整個技術真正走向實用的比較可行的路線。
  張民老師表示,機器翻譯本身既是一個科學問題,又是一個工程問題,未來想要突破,科學上的突破一定要從科學技術上,產生新的范式;工程上的突破一定要依賴知識,而知識需要在不同的領域、需要全人類來解決。

 

本文轉自網絡

 
返 回
翻譯公司相關翻譯資訊信息:
口譯記憶的方法策略  

國外品牌名翻譯常見方法  

數據時代如何保證翻譯環節的信息安全  

日語翻譯需要注意這四點  

法語文學翻譯的歷程與憂思  

口譯專家談CATTI考試  

瑞科翻譯公司
翻譯咨詢
點擊在線咨詢
瑞科上海翻譯公司
電話:021-63760188
021-63760109
電郵:[email protected]tran.com
地址:上海市中山南路969號谷泰濱江大廈12層
瑞科南京翻譯公司
電話:025-83602926
025-83602369
電郵:[email protected]
地址:南京市紅山路88號常發廣場3號樓825-829室
 南京翻譯公司 | 招聘英才 | 友情鏈接 | 服務區域 | 網站地圖 | 瑞科翻譯(新版)
瑞科翻譯公司專注翻譯16年,是一家專業的人工翻譯公司,潛心打造優質翻譯服務品牌!
©2004-2019 LocaTran Inc. All Rights Reserved.      版權歸瑞科(上海、南京)翻譯公司所有        滬ICP備09017879號-4
皇室战争卡组搭配
篮球比分直播网188 黑杰克21点游戏下载 棋牌下载送20现金 时时彩源码 pc蛋蛋幸运28app pc蛋蛋28预测到 后二直选平投稳赚技巧 王者荣耀貂蝉完全去衣 长沙一条龙白云 快乐时时