首頁  >  IT頻道  >  業界資訊  > 正文

華為雲獲DigSci科學數據挖掘大賽冠軍

2019-10-18 17:18:21 | 來源: 北國網 | 責編: 鄭思雯
分享到:

  近日,華為雲在論文匹配檢索領域取得進展,基於自然語言處理領域的領先技術積累,華為雲語音語義創新Lab在DigSci科學數據挖掘大賽上奪冠,精準率超過第二名5個百分點。

  DigSci科學數據挖掘大賽比賽是清華AMiner、智源實驗室、微軟聯合舉辦的學術論文搜索匹配大賽,屬於語義匹配檢索領域,旨在從學術材料中挖掘知識。比賽提供一個約含20萬篇論文的論文庫,同時提供對論文的文字描述,描述來自論文中對同類研究的介紹,參賽選手需要為描述段落匹配三篇最相關的論文。本次比賽吸引了來自包括清華、北大、浙大、復旦等全國著名高校和企業組成的100多支專業隊伍參加。

  挑戰知識挖掘技術高點

  學術論文是人類最前沿的知識載體,通過自然語言處理技術,自動識別一段文本描述最相關的論文,可以在學術搜索、科研知識圖譜、科研自動問答系統、科研自動摘要等領域落地。本次比賽的難點在於給定描述段落匹配的一篇論文(正樣本),在沒有負樣本的情況下要求參賽者給出一個描述段落最匹配的三篇論文。參賽者需要從大規模論文庫中匹配最相關的論文,涉及到語義表示、語義檢索等技術難點。如何縮小搜索範圍以及如何確保縮小的搜索範圍包含了與描述匹配的論文成為比賽的關鍵技術。

  華為雲聯合武漢大學、重慶郵電大學,憑藉華為雲語音語義創新Lab在自然語言處理領域深厚的技術積累,採用了候選訓練集自動生成、自動特徵抽取和選擇、深度學習文本匹配算法、模型融合集成等技術。華為雲自然語言處理專家提出的候選訓練集自動生成技術對模型取得優異結果起到了關鍵作用。該技術針對一個描述段落,自動從大規模論文庫中生成一個候選訓練集合,並通過語義表示和語義匹配確保候選集中包含了待匹配論文。同時採樣負樣本,構建出均衡的正負樣本集合用於訓練有監督的深度語義匹配模型。

華為雲獲DigSci科學數據挖掘大賽冠軍

  華為雲獲DigSci科學數據挖掘大賽冠軍

  推出知識計算即服務(KaaS)框架

  在已有的自然語言理解、對話機器人、語音交互等語音語義類服務基礎上,華為雲語音語義創新Lab持續創新,于2019年推出了知識計算即服務(KaaS)框架,助力政企客戶破解大型企業和政府機構的智慧化知識挖掘和管理難題,實現知識化轉型。該框架基於在自然語言處理、知識圖譜、深度學習、圖計算等領域的技術積累和實踐,以知識計算雲服務形式提供全棧知識計算流水線平臺,能夠針對不同行業多源異構數據進行分析和處理,通過流水線平臺幫助客戶構建知識獲取、知識建模、知識管理和知識應用的全套知識管理體系。

  在2019年華為全聯接大會上,中石油攜手華為聯合發佈了勘探開發人工智慧平臺,基於知識計算即服務框架,華為雲助力中石油進行勘探開發知識體系的構建、計算和應用,為油氣勘探開發科研、生產管理提供智慧化分析手段,實現油氣行業的知識化轉型。

  憑藉創新性和技術先進性,“華為雲知識計算雲服務”獲得了行業權威獎項“2019數博會領先科技成果獎”。在不久前全國知識圖譜及語義計算大會(CCKS 2019)上,華為雲還獲得了中文知識圖譜問答大賽“創新技術獎”。

  目前,華為雲語音語義相關服務已經成功應用於政務、金融、油氣、醫療、汽車、物流、保險、電商、稅務、媒體等具有語音識別、語言理解、知識管理等需求的業務領域。

國際在線版權與信息產品內容銷售的聲明:

1、“國際在線”由中國國際廣播電臺主辦。經中國國際廣播電臺授權,國廣國際在線網絡(北京)有限公司獨家負責“國際在線”網站的市場經營。

2、凡本網註明“來源:國際在線”的所有信息內容,未經書面授權,任何單位及個人不得轉載、摘編、複製或利用其他方式使用。

3、“國際在線”自有版權信息(包括但不限于“國際在線專稿”、“國際在線消息”、“國際在線XX消息”“國際在線報道”“國際在線XX報道”等信息內容,但明確標注為第三方版權的內容除外)均由國廣國際在線網絡(北京)有限公司統一管理和銷售。

已取得國廣國際在線網絡(北京)有限公司使用授權的被授權人,應嚴格在授權範圍內使用,不得超範圍使用,使用時應註明“來源:國際在線”。違反上述聲明者,本網將追究其相關法律責任。

任何未與國廣國際在線網絡(北京)有限公司簽訂相關協議或未取得授權書的公司、媒體、網站和個人均無權銷售、使用“國際在線”網站的自有版權信息產品。否則,國廣國際在線網絡(北京)有限公司將採取法律手段維護合法權益,因此產生的損失及為此所花費的全部費用(包括但不限于律師費、訴訟費、差旅費、公證費等)全部由侵權方承擔。

4、凡本網註明“來源:XXX(非國際在線)”的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,豐富網絡文化,此類稿件並不代表本網贊同其觀點和對其真實性負責。

5、如因作品內容、版權和其他問題需要與本網聯絡的,請在該事由發生之日起30日內進行。