作者:朱靖波 自從盤算機降生開始,機械翻譯屬于盤算機首先想到的主要應用之一,使用盤算機軟件技術實現差別語言自動翻譯?,F在許多人說處于人工智能時代,得語言者得天下。
機械翻譯也是認知智能的終極夢想之一,本節將分享我們對機械翻譯技術和應用的一些思考,有些想法紛歧定正確,也許需要十年之后才知道對錯。簡樸來說,機械翻譯技術應用至少可以滿足三個用戶需求。一是實現外文資料輔助閱讀和資助差別母語的人們舉行無障礙交流;二是盤算機輔助翻譯,資助人工翻譯降本增效;三是大數據分析和處置懲罰應用領域實現對多語言文字資料(也可以圖像和語音資料)舉行加工處置懲罰,海量數據翻譯對于人工翻譯來說是無法完成的, 機械翻譯是大數據翻譯的唯一有效解決方案。從上述三個需求可以看出,機械翻譯和人工翻譯本質上不存在嚴格沖突,屬于兩個平行軌道,兩者可以和諧共存、相互資助。
對于機械翻譯來說,至少有兩個應用場景是無法勝任的。第一個是要求高質量翻譯效果,好比詩歌小說翻譯出書;第二個是好比國家向導人講話,輕易不允許泛起低級翻譯錯誤,否則有可能導致嚴重結果甚至國際糾紛。嚴格上來說,對譯文準確性要求很高的應用場景不行能簡樸接納機械翻譯,必須由高水平的人工翻譯到場來完成。
機械翻譯技術生長至今履歷了三個主要階段,基于規則的方法、統計機械翻譯和神經機械翻譯?;谝巹t的方法大家都比力熟悉,專家人工書寫一些轉換翻譯規則,將源語句子轉換翻譯成為目的譯文句子,最大的瓶頸問題是人工書寫翻譯規則價格很是高,感受沒完沒了寫不完,最后規則寫多了容易發生沖突,造成蹺蹺板現象。為相識決這小我私家工書寫翻譯規則價格過高的問題,后兩個生長階段主要接納機械學習的方法,事先準備好較大規模的雙語句子作為訓練語料,接納機械學習方法來構建機械翻譯系統,原則上不需要人工干預或者太多干預,機械翻譯系統構建的價格低、速度快,主要瓶頸問題就是需要事先收集好大規模雙語句對薈萃,對于許多語言對來說難度比力大,特別是小語種語言對。
如何構建一套好的機械翻譯系統呢?假設我們需要給用戶提供一套翻譯品質不錯的機械翻譯系統,至少需要思量三個方面:足夠大規模的雙語句對薈萃用于訓練學習、強大的機械翻譯技術和錯誤驅動的打磨歷程。前兩者大家比力好明白, 第三點也很是關鍵,通過總結翻譯錯誤分析原因,好比屬于數據問題還是技術問題,找到一個解決方案,不停迭代優化翻譯品質越來越好。從技術應用和工業化角度來看,簡樸靠提出一個新的機械翻譯技術,對于構建一套好的機械翻譯系統來說,只能說須要條件,不是充要條件,上述三者缺一不行。
據相識全世界至少有五六千種差別語言,能夠電子化的語種至少也有兩三千種, 我們真正熟悉的主流語種不會太多,許多語種人才在海內也是稀缺資源。為了緩解這個問題,究竟造就小語種翻譯人才價格奇高,機械翻譯成為了一個有效解決方案?,F在主流的機械翻譯技術是神經機械翻譯,基于深度學習技術,翻譯品質依賴于雙語句子訓練數據規模。
我們都知道,只有主流語種好比英語和中文有能力收集較大規模的雙語句對薈萃,現在大多商用英漢機械翻譯系統使用幾個億的中英雙語句對訓練而成,但對于 99%以上的語言對來說是遙不行及的。甚至大部門語言對的電子化雙語句對薈萃規模很是小,過百萬算多的,許多只有幾萬個句對,甚至沒有,最多有一個小規模雙語詞典而已。
資源稀缺語種機械翻譯技術研究也成為學術界的研究熱點,這個課題的突破相信 能大大推念頭器翻譯技術落地應用。機械翻譯自己是一個剛需,在許多大數據翻 譯應用場景,機械翻譯是唯一有效的解決方案,非人工翻譯所為。在 2017 年以前機械翻譯市場規模一直很小,主要原因就是受制于機械翻譯品質不夠好,就算 接納最先進的神經機械翻譯技術,缺乏足夠大規模的雙語句對薈萃作為訓練數據, 我們也是巧婦難為無米之炊。從技術研究和應用可行性角度來說,解決資源稀缺 語種機械翻譯問題很是有價值。
我們通??梢运剂績蓚€維度來思考,一是如何想 措施獲取更多雙語句對,甚至包羅質量低一點的偽雙語數據;二是如何從更少樣 原來實現高效學習,或者充實使用富厚的單語數據資源或者可比力數據資源來提 升訓練學習效果。
本文關鍵詞:機械,翻譯,雜談,一,作者,朱靖波,自從,盤算機,米樂m6
本文來源:米樂m6-www.bwcvi.com