環球創業頻道導航欄_fororder_WechatIMG203

    滾動   |   環球快訊   |   環球專訪   |   政策解讀   |   會員頁面   

吳甜:開放性、共享性、生態性是智慧時代的AI軟體平臺的三大特點

2020-01-08 17:01:12  來源:中央廣電總臺國際在線  責編:王濤

  國際在線消息:1月8日,中國軟體産業最具影響力盛會——“2020中國軟體産業年會”在北京國家會議中心舉行。本次年會將探討在當前智慧化引領、數字化轉型背景下如何充分發揮軟體驅動下的數字變革,推動經濟發展的品質變革、效率變革和動力變革,以及工程教育計算機類專業認證發展趨勢等重大問題;探索軟體的進步和發展如何提升雲計算、大數據、人工智能、區塊鏈等新技術、新模式、新業態演進,以及如何為經濟發展不斷注入新動能等眾多焦點問題。

  大會現場,百度副總裁、深度學習技術及應用國家工程實驗室副主任吳甜發表“ 智慧時代的AI軟體平臺 ”的精彩演講。

  以下為現場實錄全文:

  各位專家、各位貴賓大家下午好!非常榮幸參加中國軟體産業年會,並且和大家作一個交流和分享!剛才在致遠互聯劉總的一頁PPT有看到百度AI開放平臺,我今天所分享的智慧時代的AI軟體平臺是百度開放平臺更詳細地解釋。

  人類其實歷史上已經經歷了機械技術、電氣技術、信息技術分別為驅動力的三次工業革命。看看工業革命的整個過程就看到産生巨大推動力的技術,他們産生推動以後就快速帶動社會進入到新的工業化大生産的狀態。所以能看到這些技術本身具有非常強的通用性,而這些技術在帶來一系列改變的時候呈現出來的共同特點都是實現了標準化、自動化和模組化。

  今天人工智能技術成為了第四次科技革命的驅動力,我們看看這樣新的變革當中是否也存在這樣一系列的通用性技術。深度學習的發展已經推動人工智能進入這樣的狀態,因為深度學習技術帶來的人工智能技術已經和很多場景有了更緊密的結合。使得一系列可能原來在應用場景有各種各樣問題的技術在今天都可以非常通用性的解決問題,能夠在場景中落下去,能夠帶來所帶來的一系列的價值,我們認為這樣一系列的工作背後應該有AI大生産平臺能夠支撐人工智能技術進入到産業當中,為産業帶來價值。

  這樣的大生産平臺是以算力和數據作為基礎,以深度學習平臺作為核心底座。上層有通用的AI能力,比如説語音識別,視覺上各種各樣的識別、檢測的介面。還有自然語言處理一系列的能力介面,當然在大量場景使用技術的時候只有這些通用能力是不足夠的。要這些場景上進行定制的訓練,所以有定制訓練平臺以及這些新的AI技術要和原來的在産業當中已經在運轉的貼合業務邏輯一系列的軟體系統能夠結合的時候有相應的部署和集成平臺,最終能夠形成最終落地的技術解決方案。

  因為人工智能技術本身是需要有大量的數據計算的,所以有AI安全的保駕護航會非常重要。在這樣一個大生産平臺上,今天我想介紹兩類平臺:一類是深度學習平臺;一類以對話系統作為例子介紹定制訓練平臺。

  飛槳是一個産業開源開放平臺,在飛槳上已經形成了合資框架,包含有開發訓練預測,能夠解決深度學習同時進行研發的時候一系列的底層問題,能夠使這些工程師有一個更高效的方式把深度學習技術應用起來。在此基礎上開放了自然語言處理、視覺、推薦以及語音技術相應的技術模型庫,當然也有包含預訓練模型庫,在此基礎上開發套件和各種各樣的工具組件能夠覆蓋到自動化學習、記憶學習、聯邦學習等等系列不同的學習方法,在此基礎上還有服務平臺為希望得到更低門檻使用的一系列的開發者使用的最終的平臺。整個一套成為了一個深度學習的開源開放平臺。

  在飛槳這樣的平臺上有四大領先技術:首先是在開發方面,開發的産業提升的框架兼顧了動態圖和靜態圖不同的開發模式。動態圖的開發模式會使開發人員更符合自己的思考邏輯,開發起來的靈活度非常高。而靜態圖的方式性能會非常高,兩者結合可以兼顧到開發的靈活性和最後使用的訓練性能。同時飛槳平臺上提供的網絡結構自動設計這樣一個工具,在某些領域已經超過了專家設計的網絡結構帶來的準確率。大家知道網絡結構設計也是深度學習研發過程中非常複雜的環節,往往需要有資深的演算法工程師才能做好設計。有了網絡結構深度學習的話也可以大幅度降低門檻。

  第二個領先技術是超大規模深度學習訓練模型。深度學習在使用的時候對算力的消耗非常大,數據也非常巨大。以互聯網産品上的實例來舉例子。比如説語音搜索、信息智慧化推薦這些場景都是有海量的內容數據以及海量的用戶數據需要進行訓練計算。在飛槳上開發的一系列分佈式訓練過程可以支持到百億訓練數據,支持到千億以及萬億參數高效的運行訓練。這些在互聯網産品上因為是在線實時計算,還提出了流式終身學習的訓練要求,它的要求就是在實時進行參數更新,在飛槳平臺上這樣的一個能力具備。

  第三個平臺部署的時候常常面對不同的硬體平臺、不同的作業系統,這樣其實對一個平臺來説能夠支撐到多端多平臺的部署會非常重要。一個渠道是多平臺、多作業系統,也可以看到和主流實踐相比起來速度也是全面領先。

  第四個領先技術是官方模型庫。基於飛槳平臺上放了一系列産業級官方模型庫,這些模型都是在百度的自身業務上通過了業務了考驗和打磨,提供的都是在工業型的應用上經得住考驗的模型,這個裏面有視覺、推薦語音方面上百個模型,同時開放了上百個模型。

  當我們把人工智能技術和傳統的産業場景結合的時候其實有發現,在産業場景來説是有多個困難的。首先像問題的定義就是一個困難,即使問題定義好了對模型選擇上也是面對著紛繁複雜的模型也有很長的驗證週期。完成以後和系統結合以後,在傳統産業裏面常常有很高的性能要求,同時還有設備限制以及軟體平臺的限制,我們也在飛槳平臺上面對場景開發了端到端開發套件。基於這樣一個套件首先進行案例的投射,能夠使得使用者根據自己的場景選擇出最接近的案例,同時會有一系列的開箱即用的工具箱,幫助開發者快速把這個過程搭建起來,並且調優評估得到想要的模型,最後經過部署集成工具與自己的系統結合。當然過程中所有工具都是開源的,所以可以進行深度的定制。

  這裡還有一個環節是預訓練和遷移學習結合的過程,我們把這樣的過程稱為飛槳的Master,所謂的Master就是這裡提供了在百度的自帶數據和知識並且運用百度的訓練以及很多演算法工程師所設計的大模型技術上提供學生豐富的預訓練模型庫。再加上遷移學習的工具和平臺使使用的場景僅用少量的數據就可以實現較好的結果。很多場景中用較少的開發成本適配更好的垂直産品,整個這樣的計演算法流程進一步極大的簡化。

  可以看到一個案例,這是在農業地塊自動分割場景的案例,是我們和飛槳的合作夥伴PaddleSeg完成的,我們的合作夥伴都有在這個場景下的數據已經對場景本身的認知,他們選擇了飛槳平臺上的模型以及綜合了遙感、圖像、大數據以及更好的模型快速完成了農業地塊分割這樣一個場景上的方案,通過這樣的方案農農業地塊的識別和監控上得到耕地面積提取準確率大於90%的模型,整套方案對最後的收益有10%的提升。而且對每畝的人工成本也大幅的減少了。

  剛才介紹的是深度學習平臺這一層,在整個AI大生産平台中起到的作用是底座的作用。基於此還想再分享一個定制訓練平臺,面向對話系統的定制技術與服務。這個平臺我們叫UNIT,這個平臺提供的是全鏈路的對話系統定制技術與服務。對話場景很多AI場景都在使用,比如説智慧客服系統,還有機器人的對話能力,電話外呼對話能力等等一系列的對話能力上。底層的技術平臺包含幾個方面,首先知識的建設和管理,接下來是預製的技能和資源。核心的對話能力上包含三個方面,任務式的理解,做到語言的語義理解還有問答能力以及有一個好的對話管理的應用平臺。最終還和語音的識別能力結合起來,可以做到語音、語義一體化的框架。

  可以看背後的技術全景圖包含幾個方面。首先底層需要大量的基礎RP技術,這個是非常基礎的RP的能力,在此基礎上,規劃語體、製作問答以及最後的對話流程管理。我們看看任務式理解技術上,我們看到這樣一個例子,這個例子是比較極端的例子,通常情況下客戶不會説出這麼長需要機器理解的一句話這個話非常長,説包含了多個理解和議題,這個話可以將這個議題能夠定位的是需要導航,出發點在哪,順序是什麼,目的是什麼,依賴關係以及要求的時間點,整個的理解能力從多個方面開展的。從意圖的理解本身做到多引擎融合,能夠在小樣本得到多樣本,大數據情況下都可以從啟髮式學習和深度學習整個的過程深度連接。當然採用了百度的ERNIE模型,ERNIE模型是在一個可持續學習的、知識增長的理解模型。因為它也是在RP領域非常重要的模型,這樣的模型通過海量的知識就可以達到96%以上的理解穩定率,這樣的話可以融合起來可以達到非常強的理解技術。

  有了對語言的理解,就像人類在對話的時候聽明白了第一步,下一步還需要對話過程順暢的進行下來,我們把這樣一個過程相應的軟體化和平臺化。我們提供了可編程、自學習的對話管理技術。這樣一套技術當中開發者可以通過UNIT對話,然後再加上自學習的能力最後實現非常流暢的對話管理過程,可以看到這個例子。

  這個例子當中有出現異常的發生,也出現了用戶的反饋,機器人也進行了一系列的干預,整個的過程非常流暢的。

  第三方面是我們在很多場景下其實有大量的文檔,比如説像客服場景,客服要處理很多業務文檔。通過已有的業務文檔可以快速形成對話式的文檔問答,通過文檔的分析生成文檔模型,這樣就不用人工的對常有問答對話的處理,形成一個文檔問答的能力。不管是通過直接理解得到答案還是通過詢問的理解,現在UNIT平臺上都可以實現。這樣的平臺上面對自己的場景搭建自己的AI對話機器人。

  我舉兩個案例,一個案例就是是智慧電話的邀約回訪機器人,通過機器人的電話回訪把重復性,很巨大的工作降低工作性,而且對於人工座席其實在談信息工作的時候會有情緒的波動,工作降低也可以降低人工座席的情緒波動,並且提供的是專業訓練過的這樣的一個機器人座席的能力,可以大幅降低人力投入成本,這個就是在UNIT上實現的案例。第二個案例是智慧車載系統,開車的時候手在方向盤上可以很多時候操作不管是自己的手機還是車載智慧系統其實有安全性隱患的,這個時候語音的交互可以帶來很大的便利性。在智慧車載系統上通過UNIT在百度車聯網開放平臺上形成車聯網的對話機器人,這個已經在很多車型上使用起來帶給用戶一些新的體驗。

  當然百度在推進一系列AI基礎軟體的時候也在推進相應的人才培養。剛才説到的深度學習的人才和對話技術都有相應的人才計劃。這一系列的人才計劃我們發現AI技術和産業結合既懂場景又懂AI技術怎麼用的複合型人才非常重要,所以推出了相應的課程、教學平臺,他們在對話基礎上有推出了智慧數字化解決方案的培養,這是研髮型的人才。同時也有智慧對話訓練師,他們像數據的整理,數據的標注以及對智慧對話專家經驗的輸出一系列的人才,相信這樣一系列的人才培養也會帶動AI與産業化的結合更加緊密。

  我想總結一下智慧時代的AI軟體平臺我們看到它的特徵和傳統的軟體平臺相比,因為AI面對的場景的分散度更加分散,所涉及到的産業行業更加廣泛,所以本身的基礎軟體平臺有更強的開放性,所以我們大量的平臺都是用開源形式或者開放的方式開展。第二個在這些平臺上需要有更強的共享性,因為AI技術很多能力,本身在很多業務場景之間具有一定的共享性,以及在這樣一套平臺上也是需要一種生態的方式,使得整個鏈條生態上的幾乎是創新的方式去開展的,所以總結起來的話,我們開放性、共享性、生態性是智慧時代的AI軟體平臺的三大特點,謝謝大家!

   (聲明:所有會議實錄均為現場速記整理,未經演講者審閱,國際在線登載此文出於傳遞更多信息之目的,並不意味著贊同其觀點或證實其描述。)

分享到:

國際在線版權與信息産品內容銷售的聲明:

1、“國際在線”由中國國際廣播電臺主辦。經中國國際廣播電臺授權,國廣國際在線網絡(北京)有限公司獨家負責“國際在線”網站的市場經營。

2、凡本網註明“來源:國際在線”的所有信息內容,未經書面授權,任何單位及個人不得轉載、摘編、複製或利用其他方式使用。

3、“國際在線”自有版權信息(包括但不限于“國際在線專稿”、“國際在線消息”、“國際在線XX消息”“國際在線報道”“國際在線XX報道”等信息內容,但明確標注為第三方版權的內容除外)均由國廣國際在線網絡(北京)有限公司統一管理和銷售。

已取得國廣國際在線網絡(北京)有限公司使用授權的被授權人,應嚴格在授權範圍內使用,不得超範圍使用,使用時應註明“來源:國際在線”。違反上述聲明者,本網將追究其相關法律責任。

任何未與國廣國際在線網絡(北京)有限公司簽訂相關協議或未取得授權書的公司、媒體、網站和個人均無權銷售、使用“國際在線”網站的自有版權信息産品。否則,國廣國際在線網絡(北京)有限公司將採取法律手段維護合法權益,因此産生的損失及為此所花費的全部費用(包括但不限于律師費、訴訟費、差旅費、公證費等)全部由侵權方承擔。

4、凡本網註明“來源:XXX(非國際在線)”的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,豐富網絡文化,此類稿件並不代表本網贊同其觀點和對其真實性負責。

5、如因作品內容、版權和其他問題需要與本網聯繫的,請在該事由發生之日起30日內進行。