機器閱讀理解:人工智能技術的重要分支之一

時間:2021-06-22

來源:網(wǎng)絡轉載

導語:機器閱讀理解(英文Machine Reading Comprehension,簡稱MRC)是近期自然語言處理領域的研究熱點之一,更是人工智能在處理和理解人類語言進程中的一個長期目標。得益于深度學習技術和大規(guī)模標注數(shù)據(jù)集的發(fā)展,用端到端的神經(jīng)網(wǎng)絡來解決閱讀理解任務取得了長足的進步。

  人類可以輕而易舉地閱讀理解自己的母語,而機器卻難于閱讀理解自然語言。要想讓機器閱讀理解自然語言,就需要把自然語言轉化成它可以用來讀取、存儲、計算的數(shù)值形式。當若干自然語言被轉換為數(shù)值之后,機器通過在這些數(shù)值之上的一系列運算來確定它們之間的關系,再根據(jù)一個全集之中個體之間的相互關系,來確定某個個體在整體(全集)中的位置。

  機器閱讀理解是一種利用算法使計算機理解文章語義并回答相關問題的技術。由于文章和問題均采用自然語言的形式,因此機器閱讀理解屬于自然語言處理的范疇,也是其中最新、最熱門的課題之一。近年來,隨著機器學習(Machine Learning),特別是深度學習的飛速發(fā)展,機器閱讀理解研究有了長足的進步,并在實際應用中嶄露頭角。

  隨著機器閱讀理解技術的發(fā)展,閱讀理解任務也在不斷升級。從早期的“完形填空形式”,發(fā)展到基于維基百科的“單文檔閱讀理解”,如以斯坦福大學設計的SQuAD 為數(shù)據(jù)集的任務;并進一步升級至基于web(網(wǎng)頁)數(shù)據(jù)的“多文檔閱讀理解”,這一形式的典型代表是以微軟公司MS-MARCO、百度公司DuReader 為數(shù)據(jù)集的任務。

  目前,針對不同的閱讀理解任務,研究人員已經(jīng)設計出多種模型,并取得初步成效。然而在多文檔閱讀理解任務中,由于與問題相關的文檔很多,帶來的歧義也更多,由此可能最終導致閱讀理解模型定位錯誤的答案。面對這些問題,人類的思考模式通常為:先找到多個候選答案,通過對比多個候選答案的內(nèi)容,選出最終答案,由此來找到準確率最高的答案。

  早期的閱讀理解模型大多基于檢索技術,即根據(jù)問題在文章中進行搜索,找到相關的語句作為答案。但是,信息檢索主要依賴關鍵詞匹配,而在很多情況下,單純依靠問題和文章片段的文字匹配找到的答案與問題并不相關。隨著深度學習的發(fā)展,機器閱讀理解進入了神經(jīng)網(wǎng)絡時代。相關技術的進步給模型的效率和質量都帶來了很大的提升,使機器閱讀理解模型的準確率不斷提高。

  基于深度學習的機器閱讀理解模型雖然構造各異,但是經(jīng)過多年的實踐和探索,逐漸形成了穩(wěn)定的框架結構。機器閱讀理解模型的輸入為文章和問題。因此,首先要對這兩部分進行數(shù)字化編碼,變成可以被計算機處理的信息單元。在編碼的過程中,模型需要保留原有語句在文章中的語義。我們把模型中進行編碼的模塊稱為編碼層。

  接下來,由于文章和問題之間存在相關性,模型需要建立文章和問題之間的聯(lián)系。這可以通過自然語言處理中的注意力機制加以解決。在這個過程中,閱讀理解模型將文章和問題的語義結合在一起進行考量,進一步加深模型對于兩者各自的理解。我們將這個模塊稱為交互層。

  經(jīng)過交互層,模型建立起文章和問題之間的語義聯(lián)系,就可以預測問題的答案。完成預測功能的模塊稱為輸出層;由于機器閱讀理解任務的答案有多種類型,因此輸出層的具體形式需要和任務的答案類型相關聯(lián)。這可以通過自然語言處理技術來尋找答案,并加以解決。

  自然語言處理是實現(xiàn)機器和人機交互愿景的重要技術基石,機器閱讀理解則可被視為自然語言處理領域皇冠上的明珠之一。機器閱讀理解將讓知識獲取不受人腦的限制;但對于機器閱讀理解的“能理解會思考”的終極目標來說,現(xiàn)在還只是萬里長征的開始。

  有關專家認為,端到端的深度神經(jīng)網(wǎng)絡可以更好地發(fā)現(xiàn)自然語言處理中的一些潛在特征,從而提高機器閱讀理解的準確率。對自然語言的更深層次的歸納總結、知識引用、推理歸因以及知識圖譜和遷移學習,將是機器閱讀理解的未來發(fā)展方向。

  作為人工智能技術的重要分支,機器閱讀理解將越來越多地應用于各行業(yè)。正如國際知名學者周海中教授曾經(jīng)預言:“隨著科技進步,人工智能時代即將到來;屆時,人工智能技術將廣泛應用到各學科領域,會產(chǎn)生意想不到的效果。”

中傳動網(wǎng)版權與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內(nèi)容、版權等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0