環球創業頻道導航欄_fororder_WechatIMG203

    滾動   |   環球快訊   |   環球專訪   |   政策解讀   |   會員頁面   

打造AI世界的基石 庖丁科技深研“機器可讀技術”

2018-12-04 10:16:46  來源:中央廣電總臺國際在線  編輯:韓東林   責編:韓東林

  國際在線消息:近兩年,智慧技術的進步為金融市場和各行業實踐帶來了許多變化,其中最為突出的是機器在執行簡單重復性任務以及複雜任務線性自動化過程中應用的興起。雖然這兩個領域尚未成熟,但它們都提供了改善市場運作、提高運營效率的承諾。當前,機器學習方法所面臨的一大持久性挑戰,即新技術推廣的成敗將取決於“與決策相關的數據在機器中的可讀性”這一關鍵技術。這裡的數據不僅指傳統意義上的數據信息,同時也包含所有類型的大數據,包括人類自然語言所構成的描述性話語以及其中的語義和邏輯,也包括信息或數據本身所處的上下文環境。今天全球領先的機器學習方法能夠從大數據中獲取非常有價值的內容並催生商業價值,但前提是這些大數據必須是“機器可讀”的,這樣才可以將其直接輸入機器,進而允許機器對其進行及時、有效、大規模地提取和應用。結構化的數據是天然“機器可讀”的,而非結構化的數據我們則要將其結構化從而使其“機器可讀”,結構化過程類似人們將森林大樹神奇地變為飯堂木桌的過程,這其中需要有伐木、打枝、造材、集材、裝車等工藝,這個過程是“機器可讀”的關鍵與核心。

  有業內人士表示,在探索智慧化的過程中,在很多情況下,我們對於大數據和人工智能的普遍看法是不得要領的,很大程度上就是因為沒有認識到“機器可讀”的重要性與核心地位。就如我們很多機構都想找到合適的AI團隊這個問題,大家都知道優秀的數據科學家的重要性,但對於應該如何清楚地定義“優秀”以及“數據科學家”這樣的基礎問題都找不到明確的答案,更不用説如何找到這樣的人了。這些誤解或錯誤在我們創新技術的應用中仍起著阻礙作用,如果不給予重視,就會對未來創新構成潛在威脅。

  中國科學家潛心研究機器可讀基礎技術

  作為庖丁演算法的“靈魂人物”,中國科學院智慧信息重點實驗室副研究員、前惠普實驗室數據挖掘研究主管,擁有數十年智慧演算法研究應用經驗的羅平教授指出,“我們專注于對自然語言、文檔表格進行結構化解析,自動構建垂直領域知識圖譜,讓計算機讀懂人類語言內在邏輯”。

  2018年5月,美國科學院和美國國家工程院院士、現任卡內基·梅隆大學計算機學院院長的國際頂尖人工智能專家、圖靈獎得主Raj Reddy訪問中國科學院計算技術研究所,與羅平教授就人工智能基礎技術的發展與應用進行了深入的交談。Raj Reddy對羅平教授在機器可讀領域的突破深表認可。

  庖丁科技領軍機器可讀技術,創造垂直領域商業價值

  基於此趨勢,作為以語義理解為核心技術的金融科技行業探路者,庖丁科技自2017年成立以來一直致力於讓計算機讀懂自然語言的內在邏輯、將AI技術與金融各垂直領域的專業知識進行深度融合的工作,努力推進機器可讀技術在中國金融領域各業務線的發展。

  雖然許多機構認為他們可能不需要結構化數據,但事實是他們確實消費了下游結果即各種可視化産品。沒有結構化數據,這種消費是不可能的,而終端市場中的結構化數據來源是數據提供商手動從各類文檔中提取。

  據統計,在過去5年中,全球金融機構數據電子化存儲增長了8倍(163 Zettabytes),但80%為非結構化數據,不易被機器獲取和識別,同時其數據量也非傳統方式所能消化。

  作為文檔密集型産業,金融行業的海量數據信息(如文字、表格、圖形等)多以PDF、Word、網頁等富格式文檔存在,文檔以電子格式存儲並且可通過互聯網下載並不意味著它可以被計算機演算法識別或理解,特別是當文檔材料被掃描,以專有格式存儲,或被設置為安全模式的時候,則更難以處理。如果無法將結構化數據提供給機器,那麼機器從大數據中提取的關鍵信息將會是一團亂麻。

  同時,金融領域的相關文檔很多具有一定的法律效應,因此金融行業對於數據的精確性和時效性都有很高的要求。目前行業內多以傳統方式來收集和提取數據,企業金融信息、財務報告等數據多采用數據爬蟲的方式從網上獲取最新數據,再通過大量人力對數據進行整理和分類,這種半自動化構建金融知識圖譜的方式缺乏時效性,全面性和準確性。

  可以肯定的是,要使先進的機器學習演算法産生獨到見解,必須將非標準化、碎片化的信息,整理成標準化、相關聯的金融知識圖譜,即具有內在關聯的結構化數據,才能真正創造價值。

打造AI世界的基石  庖丁科技深研“機器可讀技術”

富文本的認知計算構架圖

  具體來講,庖丁團隊運用NLP技術與人工相結合的方式對大量的金融語料數據進行標注,再將經標注的數據灌入深度學習模型,經過反復迭代使機器理解自然語言,提高準確率。

  他們先通過卷積神經網絡對段落、表格、圖表等信息進行分割抽取以及類型確定。針對抽取出的文本,通過LSTM神經網絡進行細粒度提取,實現從粗粒度到中粒度再到細粒度不同層次的文本語義理解。針對提取出的表格和圖表,同時提取出其語義特徵和視覺特徵,將這些特徵以龐大的數字矩陣的形式送入AI模型進行深度分析,最終將其解構並提取出語義。

  總的來説,機器可讀是對掃描件、PDF文件、word文檔或網頁中的不同形式的文本、段落、表格和圖表運用不同的處理技術,使文檔語義和內在邏輯被機器識別和理解,使金融知識圖譜結構化,其智慧化産品已應用於國家金融監管機構和大型頭部金融機構包括監管科技,智慧投行,智慧資管,智慧復核等多條業務線。

  隨著金融行業與人工智能技術的不斷發展和漸進融合,國內外各類企業對智慧化的巨大需求使市場對AI産品的接受度和認可度大幅提高。大量跨行業、跨機構的數據將被打通,而高品質、機器可讀的大數據是一切智慧開端的基礎。庖丁科技將會持續在此領域奮力開拓,一路前行。(庖丁科技/供圖 編輯 許煬)

分享到:

國際在線版權與信息産品內容銷售的聲明:

1、“國際在線”由中國國際廣播電臺主辦。經中國國際廣播電臺授權,國廣國際在線網絡(北京)有限公司獨家負責“國際在線”網站的市場經營。

2、凡本網註明“來源:國際在線”的所有信息內容,未經書面授權,任何單位及個人不得轉載、摘編、複製或利用其他方式使用。

3、“國際在線”自有版權信息(包括但不限于“國際在線專稿”、“國際在線消息”、“國際在線XX消息”“國際在線報道”“國際在線XX報道”等信息內容,但明確標注為第三方版權的內容除外)均由國廣國際在線網絡(北京)有限公司統一管理和銷售。

已取得國廣國際在線網絡(北京)有限公司使用授權的被授權人,應嚴格在授權範圍內使用,不得超範圍使用,使用時應註明“來源:國際在線”。違反上述聲明者,本網將追究其相關法律責任。

任何未與國廣國際在線網絡(北京)有限公司簽訂相關協議或未取得授權書的公司、媒體、網站和個人均無權銷售、使用“國際在線”網站的自有版權信息産品。否則,國廣國際在線網絡(北京)有限公司將採取法律手段維護合法權益,因此産生的損失及為此所花費的全部費用(包括但不限于律師費、訴訟費、差旅費、公證費等)全部由侵權方承擔。

4、凡本網註明“來源:XXX(非國際在線)”的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,豐富網絡文化,此類稿件並不代表本網贊同其觀點和對其真實性負責。

5、如因作品內容、版權和其他問題需要與本網聯繫的,請在該事由發生之日起30日內進行。