首頁>>新聞>>>>正文

從“能贏棋”到“能繁衍” 學院派王小川再聊“阿法狗”

2016-03-25 15:27:24|來源:國際在線|編輯:王瑞芳

圖片默認標題

圖為王小川在會上發言。易成晨-攝

  國際在線報道(記者 易成晨) 3月24日,在博鰲亞洲論壇“人工智能:探索生命疆界”分論壇上,具有濃厚學院派風格的搜狗CEO王小川暢談人工智能的發展,深入介紹了AlphaGo贏棋的技術細節,以及基於技術的不斷優化和演算法的不斷升級,使得機器的策略和行為越來越與人類相似。他認為,民眾對於AlphaGo“阿法狗”的認識還停留在機器打敗人上,但從技術角度上來説,“贏棋”只是像“阿法狗”這樣的人工智能的能力之一,如果有合適的演算法使其具備“繁衍”的能力,那麼就會産生一件令人振奮的事情——生命。

  “深藍”贏象棋和“阿法狗”贏圍棋已完全無法類比

  王小川説,1997年IBM的打敗卡斯帕羅夫的“深藍”的計算能力比今天谷歌的AlphaGo要差三萬倍,但是,計算能力的突飛猛進並不是AlphaGo贏圍棋的唯一決定因素,眾多圍棋選手甚至是科技圈人士在賽前一邊倒的認為李世石能贏也正因如此。

  王小川介紹,“深藍”的下棋方法大體上就是暴力搜索,而象棋相對簡單的因果層級使得這種方法非常奏效。“我算過一次,大概搜索十三到十四層,每次展開三到四個頁為節點。”“今天我們用一個臺式機,甚至一個筆記本就已經可以贏頂尖的國際象棋選手。甚至讓頂尖選手一兩個兵,再開局也能贏,在國際象棋裏面已經是碾壓了。”這種方法被歸為機器學習的第一階段。

  而作為對比,圍棋的變化數量比全宇宙裏的原子總數還要多,所以用窮舉這種暴力方法不再可能了。

  第二階段則是人教機器怎麼做,把人的方法套在機器身上,比如寫電飯鍋控製程序,就是把人懂的規則通過代碼或數據指引機器該怎麼做,這是傳統的機器學習,但也存在一個明顯的問題——當人類自己都不知道該怎麼做的時候,機器就無法倣照了,比如我們日常的人臉識別,即便到2006年之前都很難應對這種説不清道不明的事情,因此當人類自己沒有辦法的時候,機器也就同樣沒有辦法。

  王小川説,2006年之後《深度學習》論文的出現,促使機器學習開始倣照人,代價是需要更多數據。比如谷歌把KGS(注:開放供人下圍棋的遊戲伺服器)上人類棋手六段以上對弈的30萬盤棋——大概有接近三千萬棋局和答案,讓AlphaGo去學習,之後它不僅學會了這30萬盤棋,還在這個過程中産生了對類似問題的分析能力,所以棋局變了之後,它也能夠根據以前的經驗去做判斷,不是記住這30萬盤棋,而是學會了其中的泛化能力,這就變成了人下棋的方法。數據表明,給它一個棋局,它落子的倣人能力達到了57%,這已是巨大的突破了。

  

  但谷歌覺得並不夠,於是進入了第三階段,把AlphaGo“神經分裂”成兩台機器,按照人下棋的方法做隨機變換,像金庸小説裏的老頑童左右互搏,自己和自己打,讓輸了的機器倒推為什麼輸,哪步棋沒走好。這種做法既不給機器方法,也不告訴它答案,只告訴它最終目標是更接近還是更遠了,這樣促使其自己探索更優解。

  由此可見,“阿法狗”與“深藍”的差距之巨大,並不是計算能力不同這麼簡單。

  “阿法狗”難變“終結者”

  王小川表示,雖然“阿法狗”的能力非常卓越,但它仍然只是在一個局限的環境裏下棋的一個機器,一旦稍有變化它就“傻了”。

  “我們覺得機器在贏這件事情,在AlphaGo上是非常局限的,它的贏有兩個條件:第一,它只管下棋,贏棋是其唯一目標;第二,它所處的狀態環境只是在19×19的棋盤上,只是在一個封閉的環境中,這跟外界是沒有關係的,所以它學習的數據是非常的少。所以如果我們今天下棋把棋盤從19×19變成20×20,機器就傻了,因為它的環境發生變化了,而如果是人下棋,變換棋盤其實對水準影響不大。”

  “第二點,人還有種能力是把學到的經驗轉移到其他事情上去,我們知道圍棋選手思維會很縝密,下棋能教會他做一種利益交換,不是只管把別人打掉,他會想到底走先手還是走後手,局勢裏面互相之間能夠得到一種平衡,而人的思考會把這种經驗轉移到其他領域裏面去,而今天的機器還遠做不到,所以雖然你叫它有意識有智慧,但它只是在一個局限的環境裏下棋的一個機器。”

  “能贏棋”與“能繁衍” 只是能力不同

  基於“阿法狗”這樣具備自我學習能力的人工智能,王小川認為機器已進入全新的層次——追求最終目的而不是具體的過程。從某種程度上來説,這時的機器已經有一點點意識了。

  王小川説,“從這個延伸下去我們再想另外一個問題,如果機器的目的不是贏棋或者輸棋,它的目的是這個機器能夠存活下去,甚至能夠産生自己的繁衍,把這個當成目標,同時機器不只停留在19×19的棋盤上,而是變成要生存在地球,或者一個實驗室裏面,我覺得它們就在創造生命了。”

  “所以從AlphaGo裏面我們看到的不只是下棋的一個機器,不只是看到一個智慧這個詞,而是看到怎麼在推動一種進化,而這種進化有目標,我一旦設立了目標設立了環境,如果我有合適的演算法,我最後在這個環境或者目標下培養出來了一種能生存的能力,谷歌的AlphaGo是贏棋的能力,但如果它是生存的能力,它就變成一種我們認為的生命,生命其實就是生存和繁衍,所以在AlphaGo的道路裏面我們在國內只關心機器打敗人,但是確實在技術裏面它們做得更遠。”

國際在線官方微信

國際在線趣新聞

返回頂端