首頁>>新聞>>滾動>>正文

讓機器“説”中文面臨哪些新挑戰

2016-12-25 12:44:50|來源:光明網|編輯:顏觀潮

  讓計算機、智慧手機這樣的機器像人一樣來理解和使用語言,這是語言信息處理專家們的夢想。然而,相較于英文而言,中文表達缺少詞與詞之間的空格,人名首字母大寫這類明顯的表層語法特徵,使得機器識別和表達中文信息時困難更多。12月23日至24日,中文信息學會在京舉行第八次全國會員代表大會暨學會成立35週年學術會議,專家們解讀了讓機器“説”中文的研究進展。

  讓中國人與機器自由交流

  中國中文信息學會理事長、哈爾濱工業大學教授李生説:“中文信息處理就包含對中文(漢語,少數民族語言)的編碼、音、形、義等方面的計算機自動處理。”

  實際上,在計算機問世並迅速引發席捲全球的信息技術革命時,由於其使用英文語言,如何進行漢字編碼、存儲、輸入和輸出一度成為計算機在中國普及和推廣的“攔路虎”。此後,在速記專家唐亞偉發明亞偉中文速錄機,北京大學王選院士等人研究出漢字照排和印刷技術研究,並解決了巨量漢字字形信息存儲和輸出等問題之後,電腦才與漢字“相容”。

  如今,隨著IBM的沃森超級計算機、谷歌的阿爾法圍棋、百度的小度機器人、微軟小冰,以及蘋果的Siri等人機交互系統走進人們的日常生活,能與人類用“語言”交流的應用已經無處不在,且更加智慧,而這些現代科技催生的智慧“機器”在中國的推廣應用,始終存在將英文語言轉化為中文形式的需求。對此,與會專家們表示,中文語言處理的目標就是讓機器像人一樣來理解和生成中文,讓中國人可以用自己的語言與機器進行自由交流。

  機器“説”中文需獨立發展理論

  讓智慧機器“説”中文,最大的難點是什麼?李生説:“中文處理與英文有諸多差異,但是其最核心的區別在於中文重義合,英文重形合。”這使得中文表達相比英文缺少明顯的表層語法特徵,例如詞與詞之間的空格,人名等單詞的首字母大寫等,這種差異導致機器處理許多語法層面的任務時,中文比英文要更困難一些。

  “中英文之間的差異甚至已經體現在人腦對語言信息的處理上,而這已經得到了神經科學的證實。”李生説,這一點美國科學院院刊曾刊發論文進行論述,“中文信息處理領域內的很多資深科學家也強調需要正視中英文差異,獨立發展中文的處理理論。”

  “要最終達到機器理解中文的目的,還有很多尚未解決的難題。”中國科學院自動化所研究院宗成慶説,中文信息處理是多學科交叉的複雜問題,僅歧義消解這一難題就已經讓自然語言處理研究者左支右絀,力不從心。

  “更何況人類運用語言還有多種多樣的表現手法,諸如隱喻、幽默、誇張、雙關、影射等,它們對自然語言理解研究都有深刻的影響。”而目前對有些問題剛開始研究,有些甚至尚未觸及。對此,宗成慶認為,要實現機器對語言的理解,必須首先解開人類理解語言機制的秘密,這是有關人類認知機理、智慧本質的科學難題。

  中文信息處理讓人們更“聰明”

  能夠進行各種語言互譯的計算機軟體是人們如今常用的語言處理工具。但經過多年的發展,機器翻譯仍然不能讓人十分滿意。在該學術會議上發佈的2016年《中文信息處理發展報告》中指出,在“信、達、雅”這三個語言翻譯的不同層次上,目前的機器翻譯還基本掙紮在“信”的階段。未來,機器翻譯品質的提高還有賴於基於神經網絡技術的翻譯方法等的發展進步。

  對此,李生表示,以互聯網、大數據和深度學習為標誌的海量信息時代的到來,也給信息檢索、語音技術、文字識別、自動問答、機器翻譯等中文信息處理領域帶來了新的挑戰和機遇。

  他舉例説,人工智能技術給中文信息處理帶來了諸如手機語音助手等許多新應用場景,這其中又産生了大量的用戶反饋數據,這些海量的數據則促進了基於中文的知識圖譜建立和深度學習等新技術的應用和發展。李生認為,這些變革會極大地將人們從中文記錄、翻譯、文字識別等機械勞動中解放出來,同時也會提升人們的認知能力。他説:“總之,借助中文信息處理技術的諸多進步,我們會了解得更多,變得更‘聰明’。”(光明日報記者 詹媛)

(原標題:讓機器“説”中文面臨哪些新挑戰)

標簽:

國際在線官方微信

國際在線趣新聞

返回頂端