環球創業頻道導航欄_fororder_WechatIMG203

    滾動   |   環球快訊   |   環球專訪   |   政策解讀   |   會員頁面   

王海峰:開源開放促進科技創新與産業發展

2021-04-07 11:42:44  來源:中央廣電總臺國際在線  責編:韓東林

  國際在線消息:4月7日,由中國軟體行業協會主辦的2021中國軟體産業年會在北京舉行,大會以"數字經濟新時代——軟體産業賦能高品質發展"為主題,瞄準産業變革和時代發展趨勢,滌蕩思想與共識,匯聚知識與力量,展示中國軟體産業新成果。

  大會現場,百度集團CTO王海峰作題為“開源開放促進科技創新與産業發展”的精彩演講。

  以下為現場實錄全文:

  王海峰:尊敬的廖湘科院士,尊敬的各位來賓大家上午好!非常高興有機會參加中國軟體行業協會的年會。開幕式上王懷民院士對開源有了一個非常深刻、非常全面的講解。不謀而合我今天選擇的主題也是開源開放,我的角度是從開源開放促進科技創新和産業發展和大家做一個交流。   

  我們知道科技創新受到全國上下高度重視,國家強調新一代人工智能前沿領域的重要性,同時也專門在加強關鍵數字技術創新應用這個環節專門強調了開源社區、開源知識産權以及方方面面和開源相關的事情。   

  其實我的題目裏有兩個詞:開源和開放。開源和軟體高度相關,軟體原代碼的開源以及技術文檔等等,開源有利於做群智協同創新、技術快速的創新突破等模式。開源和開放密切相關,但又不完全一樣。開放不僅僅像開源一樣的原代碼,其實可以開放數據、技術、平臺等等,比如説現在做人工智能越來越知道,除了代碼以外數據平臺等等都非常重要,一起支撐人工智能技術的高速發展以及産業應用,開放不僅僅是説做這種群智的協同創新,同時會深刻改變生産的協作方式,賦能産業創新發展。   

  全球開源發展歷程,從早期著名的Unix,我們這代學計算機的人幾乎每個人都看過Unix的源代碼,後來現在還廣泛應用的Linux等等,包括最近這些年跟人工智能相關很多開源的項目。比如説之前環節王院士提到現代的人工智能深度學習的框架等等,無論是百度的飛槳、華為、曠視等等。開源應該説推動整個技術更快速的進步和發展。   

  而開源開放也成為技術創新和産業發展的重要方式。可以看到兩個數據,左邊是Github上註冊的企業數,大家看到持續在增加,已經有幾百萬還在高速的發展。右邊這張圖可以看到各行各業不只是互聯網。互聯網精神很重要一部分就是開放精神,互聯網大量用開源軟體,各行各業開源軟體在其中佔比都超過50%。中國在開源開放的角度積極參與全球的開源開放,同時積極構建中國自己開源開放的生態,可以看到底層的作業系統、編譯器,到中間邊緣計算、容器、中間件方方面面都有大量的優秀的開源軟體。而新一代的人工智能也可以看到有很多基礎的框架,有類似于阿波羅這樣專業的領域都有大量優秀的開源軟體。看一組數據,不少人知道開源中國是中國自己的開源社區。國際上有Github,中國有gitee,在這上面其實開源中國上面已經收入了12000多款國産的開源軟體,gitee上有600多萬用戶,有1500萬的代碼倉庫,在高速增長。2020年開源項目數量增長達到192%。   

  百度作為一家互聯網企業,我們也在積極參與開源,不管是國際上的APACHE企業還是中國自己的開放原子開源基金會,百度包括在座的華為等等我們都是創始白金會員單位。   

  百度開源,可能很多人知道百度的飛槳這樣的一個深度學習框架和平臺還有Apollo自動駕駛的平臺,還是其它方面。比如説前端框架,地理信息的可視化開源庫等等都有很多開源項目。剛才已經反復提到深度學習框架,在人工智能時代是非常重要的,向下對接晶片,向上承接應用,可以説處在智慧時代的作業系統的位置上。而百度開源了國內第一個完全自主可控的産業級的深度學習的開源開放平臺——飛槳。用了兩個詞:框架和平臺。平臺裏面最核心的是核心框架,包括開發、訓練以及多端的部署能力,以這個框架為基礎,上面會有非常豐富的模型庫,比如説現在大量的自然語言處理的模型庫、語音、視覺等等,再往上有各種開發套件、工具組件支持應用者、開發者方方面面的應用。   

  如果説這樣龐大的平臺總結核心技術包含那些,有四個方面:首先開發。是開發便捷的深度學習框架,同時支持動態圖、靜態圖等等。模型現在越來越大,大模型是很重要的趨勢。飛槳也支持這種萬億級參數的超大規模的圖形訓練,同時多端多平臺部署的科技運行以及豐富的産業模型庫。   

  首先看開發便捷方面,有這種編程一致的計算表示,同時支持動態圖、靜態圖的動靜統一的開發體驗。同時支持API,訓練是深度學習框架一個非常重要的核心,只有有高效的訓練才能源源不斷産生有效的模型,我們支持這種通用異構參數伺服器的超大規模訓練,可以支持到萬億級參數、技術參數的這樣的訓練。同時可以支持各種平臺,比如説不只是飛槳自己的框架,也相容其它的框架,同時支持從雲到端,到邊緣各種部署能力以及各種作業系統。   

  模型庫是很重要的方面,一些資深的開發者可以從底層框架開發,更多應用角度開發更方便的方式是直接調用已經訓練好的模型庫,這裡面不只是包含源碼所包含的其它開發者的智慧,同時也包含著對於大量數據訓練好的直接可用的模型,我們看到這個模型庫是非常豐富,有200多個模型,有自然語言、視覺、語音各個方面都有很多,從底層的框架與工具庫到演算法庫到任務庫等等。    剛才説起深度學習框架是向下對接晶片,跟晶片聯合優化,尤其是深度學習框架實踐這一層很大程度上定義了深度學習要做哪些計算,這些是直接會影響晶片的指令集,所以我們把框架和晶片聯合進行優化産生了百度崑崙,百度崑崙第一代新品在線上大規模部署在應用了,二代的晶片也即將要量産。   

  當然,飛漿作為一個開放的生態,不僅是支持崑崙晶片,事實上我們已經跟29種型號的晶片進行了適配,大家可以看到從CPU到AI晶片,不管是訓練晶片到推理晶片以及FPGA等等都做了充分的適配,很多廠商的名字大家非常熟悉,包括國內的也包括國外的。    同時,飛槳加速AI技術突破,剛才看模型庫前面講到很多方面的語言、語音視覺等等,大家知道自然語言處理是人工智能非常重要的方向,飛槳大平臺裏麵包含了自然語言處理相關的一些,像知識增強的語意理解平臺,就是百度的ERIIE(文心)。一方是把知識,大規模知識引入到和深度學習相結合産生了更好的知識增強的語意理解的技術。同時,通過監督學習任務的構建以及多任務學習,最後形成了持續學習的能力,使得能力不斷進步。   

  比如説我們也在多領域不斷在用,我們在多語種方面,通過少量的雙語量捕捉對齊信息就可以,同時通過回憶機制從單語中學習語意的對齊,這是多語種。再比如説跨模態,我們以大規模知識圖譜和自然語言的語意表示為基礎拉通語言、語音和視覺這種跨模態的統一的語意表示,進而做跨模態的語意理解。其他方面比如説飛漿大平臺裏還有專門跟生物相關的,生物計算的開源工具和平臺,我們把它叫“螺旋槳”地層的支持到開源工具到服務平臺到應用場景都有。   

  飛槳的開源生態,比如説Star總數有7萬多,多個項目的登頂(英文)榜。人工智能除了這些演算法、算力數據等等,人才非常重要,早晨那個環節王院士也提起教育,飛槳AI教育體系在不斷壯大,從師資的培訓等等,這些跟咱們軟體行業協會也有很多的合作一起在推動人才的培養,從官方的課程、配套的教材、資格認證等等這些,包括比賽、基金。   

  飛槳目前已經凝聚了260萬開發者一起進行協同創新,我們可以看到很多不同的領域其實都在用飛槳,包括各個年齡段,比如説左下角圖看到六年級的小學生不但用飛槳做開發,開發水準很高,百度追星的決賽裏博士生、碩士生都在參加,小學生在這裡面取得了很好的名次,並且獲得了獎。   

  服務産業角度,目前已經服務了10萬企業,創造了34萬個模型,包含工業、農業、城市管理、民生等各個行業。比如説在工業質檢,我們實現檢出率有大幅度提升,週期明顯縮短,比如説智慧合同的解析就是自然語言處理的技術以及銀行單證中心問答式的智慧客服。   

  整體來説,開源開放在推動越來越多行業加入産業智慧化升級的浪潮。而且我們看到,行業的分佈,互聯網佔比在變低,這個不是互聯網應用變少,而是其它越來越多,最右側更多的行業加入到産業智慧化升級的浪潮中來。今天彙報到這裡,謝謝大家!

  (聲明:所有會議實錄均為現場速記整理,未經演講者審閱,國際在線登載此文出於傳遞更多信息之目的,並不意味著贊同其觀點或證實其描述。)

分享到:

國際在線版權與信息産品內容銷售的聲明:

1、“國際在線”由中國國際廣播電臺主辦。經中國國際廣播電臺授權,國廣國際在線網絡(北京)有限公司獨家負責“國際在線”網站的市場經營。

2、凡本網註明“來源:國際在線”的所有信息內容,未經書面授權,任何單位及個人不得轉載、摘編、複製或利用其他方式使用。

3、“國際在線”自有版權信息(包括但不限于“國際在線專稿”、“國際在線消息”、“國際在線XX消息”“國際在線報道”“國際在線XX報道”等信息內容,但明確標注為第三方版權的內容除外)均由國廣國際在線網絡(北京)有限公司統一管理和銷售。

已取得國廣國際在線網絡(北京)有限公司使用授權的被授權人,應嚴格在授權範圍內使用,不得超範圍使用,使用時應註明“來源:國際在線”。違反上述聲明者,本網將追究其相關法律責任。

任何未與國廣國際在線網絡(北京)有限公司簽訂相關協議或未取得授權書的公司、媒體、網站和個人均無權銷售、使用“國際在線”網站的自有版權信息産品。否則,國廣國際在線網絡(北京)有限公司將採取法律手段維護合法權益,因此産生的損失及為此所花費的全部費用(包括但不限于律師費、訴訟費、差旅費、公證費等)全部由侵權方承擔。

4、凡本網註明“來源:XXX(非國際在線)”的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,豐富網絡文化,此類稿件並不代表本網贊同其觀點和對其真實性負責。

5、如因作品內容、版權和其他問題需要與本網聯繫的,請在該事由發生之日起30日內進行。