Facebook的新技術,擊敗瞭“上帝讓不同人類說不同語言”的圖謀

原標題:Facebook的新技術,擊敗瞭“上帝讓不同人類說不同語言”的圖謀

活躍用戶量已超過 20 億,Facebook 會成為人類的巴別塔麼?



《創世記》第 11 章中記載,人類計劃建立通天的高塔,而上帝讓人類說不同的語言,使得他們無法協作,計劃最終失敗。

現實中,不同語言成為瞭各自所屬文化的因子,構建出一種多樣的美。但語言仍像鴻溝,阻礙著人類的交流。

最近,Facebook 用人工智能對翻譯系統進行瞭一次重大改造。

他們的工程師發現,網站上對帖文和回復進行翻譯的按鈕每天會被點擊數十億次,翻譯動作有數千個方向(比如中英互譯,英文到中文是一個方向,反之又是另一個方向)之間。





如此巨量的翻譯工作,Facebook 一直以來做的卻不好。他們過去使用的統計機器系統,翻不準俗語,識別不瞭錯字和縮寫,無法理解上下文,很難準確翻譯帖文的意圖。於是,工程師們用改用一種名叫“帶註意力的長短時記憶”(Long Short-Term Memory with attention, LSTM)的深度學習技術,設計瞭一套人工智能翻譯系統。

目前,新的神經機器翻譯系統已完全取代瞭過去的機翻系統,部署到 Facebook 網站、Instagr台中坐月子中心價格am 以及其他產品中。改造的效果顯著:按照業界公認的 BLEU 標準,Facebook 新翻譯系統各種語言互譯得分比舊系統提高瞭 11%。

人際溝通大多通過語言完成。而當參與方不使用統一語言,溝通就必須通過翻譯。因此翻譯系統的準確度極大影響著溝通的成果。但遺憾的是,絕大多數網上和手機上的翻譯網站和軟件,背後的技術都來自機器翻譯。

通常,機翻系統對常見的單詞、短語和句法簡單的句子翻譯效果較好。如果一句話就是主謂賓,比如“我吃米飯”,系統翻譯成 “I eat rice”,這沒問題。

但比如中日互譯、或者下圖中土耳其語和英文互譯,原文的語言和翻譯後語言在句法上有很大的差別,機器翻譯就會捉襟見肘瞭。下圖是機翻結果:



翻譯出的英文沒有語法錯誤,但還是不太容易懂什麼意思。這是因為機翻會把句子拆成一個個字段,結果就是把一個個字段的翻譯放出來,沒有對目標語言的語序、語法和表達習慣進行優化。

人工智能怎樣做到更準確、更有人味兒地翻譯呢?

維基百科解釋, LSTM 是一種在時間上遞歸神經網絡 (Recurrent Neural Network),適合於處理和預台中月子中心評鑑測時間序列中間隔和延遲相對較長的重要事件。翻譯正好是這種類型的工作,因為很長的一句話,可能後半段是對前半段的邏輯呼應,但機翻系統根本不記得前面說的是什麼。

LSTM 能記住整句話的內容,對句子的上下文進行反溯,理解邏輯,從而給出更精確、流利和地道的翻譯結果,如下圖:



“註意力”(attention) 也是深度學習裡一個很有趣的機制,它有點像人類觀察事物時眼神的聚焦,鍋裡有菜,你會自動把更多註意力分配到菜上而不是鍋或者鍋柄。

註意力能夠幫助新系統留意一些在標準英語辭典裡沒有出現的詞,這些詞很有可能是縮寫和短語,比如 idk (I don’t kno台中月子中心費用w)、tmrw (tomorrow),也有可能是網絡用語。當神經機器在句子裡發現這樣的詞,會先留空不翻譯,分配一定的計算力,去其他詞庫和訓練數據集查找這個詞的釋義,最後再翻譯出來。

不僅如此,研發團隊還利用瞭一些神經網絡剪枝(保留重要的權重)和壓縮編碼的算法,極大地降低神經翻譯系統的詞匯表大小,減小瞭計算量,但沒有拉低翻譯精度。

搞定瞭翻譯系統,並不是終點,工程師們還要把它部署到 Facebook 數十億用戶量級的後端系統中去。開發瞭深度學習框架 Caffe 的 Facebook 研究科學傢賈揚清,已經帶隊開發出瞭更註重模塊化,利於移動端和大規模部署的 Caffe2。在新框架上運行,神經翻譯系統的效率提升瞭 2.5 倍。

由於深度學習技術的進展,神經機器翻譯在近年越發流行,並已進入許多流行的產品中,開始幫助人們更好地溝通。微軟推出的翻譯軟件 Microsoft Translate,讓溝通多方像用微信一樣加入群聊,自然對話並獲得各自的翻譯,備受好評。



去年,全球 5 億人使用的 Google Translate 服務中部署瞭神經翻譯機器。當時 PingWest品玩用一些經典中英段落測試互譯,仍會出現奇怪的翻譯:

In my younger and more vulnerable years my father gave me some advice that I’ve been turning over in my mind ever since.

“Whenever you feel like criticizing anyone,”he told me,”just remember that all the people in this world haven’t had the advantages that you’ve had.”

人工翻譯:台中產後護理中心推薦

我年紀還輕,閱歷不深的時候,我父親教導過我一句話,我至今還念念不忘。

“每逢你想要批評任何人的時候,”他對我說,“你就記住,這個世界上所有的人,並不是個個都有過你那些優越條件。”

Google 神經機器翻譯(去年):

在我更年輕,更容易年,我的父親給瞭我一些建議,我一直在我心中從此翻身。

“每當你覺得批評任何人,”他告訴我,“隻記得,所有的在這個世界上的人都沒有,你有過的優勢。”

時隔一年之久再去測試,效果已經好瞭很多:

在我年輕,更脆弱的歲月裡,我父親給瞭我一些建議,自從我一直在轉過頭來。

“每當你想批評任何人,”他告訴我,“隻要記住,這個世界上所有的人都沒有你的優勢。”

這是由於神經機器翻譯後端的深度學習系統學習能力比統計機更強。隨著輸入的數據源,以及使用的人越來越多,它能不斷提升翻譯技巧。Facebook 用戶剛剛超過 20 億,每天都有超過 13 億說不同語言的人在上面分享活動、發圖片、評論以及點贊。現在,Facebook 翻譯後端已經完全遷移至神經機器翻譯,這些訓練好的神經網絡每天處理多達 45 億次翻譯請求。

未來,Facebook 打算引入一些更先進的神經網絡架構,比如卷積神經網絡 (Convolutional Neural Networks, CNNs)。測試結果發現使用 CNN 進行英法互譯的 BLEU 得分比 LSTM 進一步提升瞭 12%。不僅如此,他們也在嘗試一些更難的挑戰,比如多語種(而非雙語種)翻譯。

屆時,基於神經網絡的翻譯系統,將在精度、地道程度、多語種翻譯能力等更多維度上超過和取代統計機,甚至人工翻譯——就目前來看,取代這些工作可能是人工智能為數不多的壞處之一。返回搜狐,查看更多

責任編輯:

聲明:本文由入駐搜狐號的作者撰寫,除搜狐官方賬號外,觀點僅代表作者本人,不代表搜狐立場。

閱讀 ()

台中產後護理機構

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

文章標籤
創作者介紹

眼前的誘惑

d1qzyq7hy 發表在 痞客邦 PIXNET 留言(0) 人氣()