一年半前,谷歌首先宣稱其新的神經(jīng)機器翻譯(NMT)系統(tǒng)可以產(chǎn)生與人類輸出“幾乎不可區(qū)分”的翻譯。

游戲本地化翻譯的關(guān)鍵

 

  但是,盡管谷歌的“幾乎不可區(qū)分”主張深深地埋在了論文的技術(shù)討論的第18頁,并且經(jīng)過了小心避免,但微軟在一篇新的研究論文的標題中發(fā)表了槍聲,說他們在中文和英文翻譯之間實現(xiàn)了“人對等” 。

  根據(jù)微軟于2018年3月14日發(fā)表的題為“在漢語自動翻譯中實現(xiàn)自動翻譯”的研究論文,他們開發(fā)的新型NMT系統(tǒng)的一些變體已經(jīng)實現(xiàn)了“人類平等”,即它們被認為是平等的人文翻譯質(zhì)量“(本文將人的素質(zhì)定義為”WMT 2017中文到英文新聞任務的專業(yè)人類翻譯“)。

  在24小時之內(nèi),TechCrunch,GeekWire,TechRadar和ZDNet等主流技術(shù)網(wǎng)點發(fā)布了這個故事,可預見地將人權(quán)平價理賠視為面值。

  微軟提出了一個新的人類評估系統(tǒng)來得出這個方便的結(jié)論,但首先他們必須確保“人類平等”不那么模糊和更明確。

  因此,微軟在其研究中對人類平等的定義是:“如果雙語人類對人類生產(chǎn)的候選翻譯的質(zhì)量進行判斷,使其與由機器產(chǎn)生的翻譯質(zhì)量相當,那么該機器就實現(xiàn)了人類的平等。”

  在數(shù)學上,可測試的術(shù)語中,如果機器翻譯系統(tǒng)的候選翻譯測試集的人類質(zhì)量得分與相應的人類翻譯的得分之間沒有統(tǒng)計學顯著差異,則實現(xiàn)人類奇偶性。“

  新的人類評估方法

  該研究團隊使用2017年機器翻譯會議測試集來獲取新聞(WMT2017 newstest)數(shù)據(jù),用于培訓和測試其新的NMT系統(tǒng)變體。

  微軟團隊使用了雙語人工評估器,并向他們提供了源自WMT2017新聞測試集的源文本和翻譯輸出,并要求他們對0到100的翻譯進行評分.WMT2017會議中的頂級執(zhí)行引擎是搜狗公司的搜狗知識NMT系統(tǒng)。研究人員還讓他們的評估員評估了搜狗Knowing NMT的輸出。

  他們向評估人員展示了九個系統(tǒng)的輸出結(jié)果。根據(jù)研究報告,每個系統(tǒng)大約有2000個評估(每個系統(tǒng)至少有1,827個評估)。

  根據(jù)微軟的人力評估人員,從最好到最差的排名:

  微軟新的NMT引擎變體(Combo-6)

  參考用于此研究的人工翻譯

  微軟新的NMT引擎變體(Combo-5)

  微軟新的NMT引擎變體(組合-4)

  WMT2017的參考翻譯是后編輯的機器翻譯

  搜狗了解NMT

  WMT2017在會議中使用的參考人類翻譯

  微軟現(xiàn)有的生產(chǎn)型NMT系統(tǒng)

  谷歌現(xiàn)有的生產(chǎn)NMT系統(tǒng)

  根據(jù)微軟研究人員的說法,前四項是分組在一起的,并且彼此保持一致,即他們的分數(shù)非常接近,彼此之間沒有區(qū)別。

  微軟與搜狗

  奇怪的是,微軟的研究報告還顯示,使用這種新的評估方法,搜狗Knowing NMT的得分非常接近WMT2017參考人類翻譯的得分,因此他們被認為難以區(qū)分。

  看起來微軟還無意中使用了他們的新評估方法,即搜狗至少與WMT2017參考人工翻譯相比達到了人類平等。

  同時,微軟和谷歌現(xiàn)有的生產(chǎn)型NMT系統(tǒng)得分最低。

  請親自看看:微軟最高得分的NMT系統(tǒng)變體的英文輸出取自他們的開源Github鏈接。從內(nèi)容看,平均句子長度并不長,也不是非常復雜。

  他們還使用雙語評估研究(BLEU)來衡量以前工作中的任何收益,這些收益也使用BLEU積分進行評分,包括WMT2017對參與NMT引擎的排名。

  據(jù)報道,微軟的NMT模型設(shè)置(包括基線在內(nèi)的12項中的10項)大部分都是Sogou Knowing NMT的26.40 BLEU分數(shù)。微軟的表現(xiàn)最佳的NMT變體以27.40分的優(yōu)勢擊敗了最先進的1個BLEU,全部使用了與WMT2017相同的訓練數(shù)據(jù)。

  發(fā)光的新技術(shù)和培訓方法

  研究小組為他們的實驗開發(fā)了新的NMT引擎。他們嘗試了遞歸神經(jīng)網(wǎng)絡(luò),卷積網(wǎng)絡(luò)和變壓器,并且最終因為輸出更好而使用了變壓器引擎。

  接下來,他們還升級了培訓方案。

  他們采用了最近稱為雙重學習的技術(shù),使他們的模型能夠從雙語培訓數(shù)據(jù)的源到目標和目標到源的方向?qū)W習。他們還使用了Deliberation Networks,它使用另一個解碼器層來“拋光”NMT系統(tǒng)中第一個解碼器的翻譯 - 就像編輯器打磨作者的草稿。此外,他們還采用聯(lián)合培訓和協(xié)議正規(guī)化。

  他們基本上混合并匹配所有這些方法,以迭代方式改進跨同一NMT系統(tǒng)的多個變體的翻譯輸出。

  微軟團隊還過濾了WMT2017的訓練數(shù)據(jù)。清理和過濾培訓數(shù)據(jù)后,乳清中剩下1800萬雙雙語句子和700萬中英文單語句子。

 

  未來的工作

  微軟就這個新的研究開源做了一切,引用外部驗證和未來研究為理由。

  至于何時,微軟計劃將其新系統(tǒng)轉(zhuǎn)化為生產(chǎn),公司發(fā)言人告訴ZDNet:“我們正在努力盡快將其投入生產(chǎn),但目前我們沒有任何聲明。”