高智商愛耍寶,這不是Sheldon,是多語翻譯機器人。江蘇衛視問答闖關節目《芝麻開門》里,“小度機器人”自稱女文青,呆萌吐槽。4月19日,小度機器人的核心技術模塊百度翻譯,獲得了中國電子學會的科技進步獎一等獎。
當日論壇上,小度機器人當起主持人,和真人搭檔做起多語翻譯。小度算是世界上第一個能實現多語翻譯的機器人,或許以后那種高大上的舞臺,就不需要外語主持了。
這個獲獎項目全名是《基于大數據的互聯網機器翻譯核心技術及產業化》。由百度牽頭,與中科院自動化所、浙江大學、哈爾濱工業大學、中科院計算所和清華大學聯合研發。
說到翻譯,乍一聽,好像不難,翻譯軟件在非互聯網時期就有了。早在1946年第一臺現代計算機誕生之初,美國科學家W.Weaver就提出了機器翻譯的設想。
但事實上,機器翻譯是人工智能領域的終極目標之一,涉及計算機、認知科學、語言學、信息論等學科。到底有多難,想想我們自己怎樣刻苦學習外語就知道了。大概科學家們的夢想就是造出巴別塔,讓人類不用再學外語。
互聯網時代,翻譯自然要用“自然語言處理技術+大數據”來解決。那么,百度翻譯解決了哪些問題?
1、通過海量自然語言語料庫,讓機器自動學習理解不同單詞、短語和句式,然后進一步優化自身系統,并突破了“消歧”和“調序”等難題。
2、基于互聯網大數據的翻譯模型,可實時準確地響應多文體、多領域的復雜翻譯請求。
3、基于樞軸語言的翻譯技術,使得資源非常稀缺的小語種翻譯成為可能,且實現了多語種翻譯的快速部署。
這些年百度一直苦心鉆研人工智能,技術公司路徑愈發明顯。甚至可以推斷,百度戰略放棄了一些過渡性技術和產品。直奔著下一個制高點去了。
和百度過去那些核心技術一樣,百度翻譯也被模塊化,做成了開放平臺。跨國企業、中小企業和普通開發者都可以免費接入百度翻譯API,使用優質的多語言翻譯服務。目前通過API接入百度翻譯服務的第三方應用累計超過7000個。
跨境B2B電子商務平臺敦煌網使用了百度翻譯API,商家上傳商品中文資料后,后臺會自動翻譯出各種相應外語語種。還有一嗨租車,可以讓外國人自動生成母語訂單,一些知名品牌手機的系統文字使用的同樣是百度翻譯。
“巴別塔”不僅是科學家的夢想,而且有巨大的商業價值。至少目前,基于大數據的機器翻譯已經可以代替一些水平較低的翻譯新手。如果使用在線翻譯API進行二次開發,在許多場景下可以實現更多元的大眾化使用,而且類似場景會越來越多。
比如最近很火的社交應用足記,就接入了百度翻譯的API。創始人CEO楊柳說:“足記的翻譯是很特殊的存在,使用者對翻譯的訴求最低,但是對譯文的要求最高。我們想要將很多經典的臺詞、中英文或是古詩詞翻譯好,幫助每一個用戶成為詩人。如果機器翻譯出現前后倒置,就會影響用戶的體驗,因此足記對比過很多翻譯接口。
當然,僅用人工智能的終極夢想解答不了百度為什么這么重視翻譯。我們還是需要回到原點來評判它的價值。
百度是一家搜索公司,以前做的很多工作是連接人與信息,而現在更多的是連接人與服務。百度公司技術副總裁王海峰說:“搜索的本質就是連接人與信息、人與服務。在尋找信息和服務的過程中,人們會有用其它語言表達需求的時候,也會有看其它語言結果的需求。為了更好地把人和多語言的信息和服務連接起來,我們需要翻譯。”
更多資訊請關注工業機器人頻道
世界那么大,應該去看看。但凡這個過程中涉及到多語言場景和應用,翻譯就是入口。