五場對弈,憑藉著4:1戰勝李世石,AlphaGo的排名積分來到了3586分,僅次於中國棋手柯潔。這也意味著,如果想在圍棋界稱王,挑戰柯潔將成為繞不過去的一環。
事實上,第四戰結束後,AlphaGo的研發工程師拉利亞•哈德賽爾就在Facebook上寫下了戰書:「柯潔,準備好一場比賽了嗎?」幾天之後,得到回應。19歲的柯潔用慣有的語氣在微博上寫道:咱能動手就儘量別廢話。同時,貼上了哈德賽爾的戰書截圖。
硝煙再起,似乎又一場「世紀大戰」一觸即發。然而,在不少專家看來,哈德賽爾和柯潔的隔空喊話,更像是谷歌的一場公關秀。因為找高手下棋,更多是為了驗證AlphaGo的自學水平。
TA學到什麼地步,沒人知道
表象下的AlphaGo只是一台台式電腦,在整場對弈中,它只能安靜地杵在邊上,需要落子時,才由研發者之一黃士傑來執行。於是在連贏兩局後,就有中國網友調侃,憤怒的李世石一氣之下將AlphaGo砸碎,發現柯潔正躲在黑暗的機箱裡。
AlphaGo的名聲大振始於今年1月27日。當時,國際頂級雜誌《Nature》以封面論文的形式對它進行了報導,並記錄了去年10月5:0擊敗歐洲棋王樊麾一事。
《Nature》雜誌的高級編輯坦吉•肖爾德在此前接受媒體採訪時說,AlphaGo是「深度學習神經網絡」與「蒙特卡洛樹搜索算法」結合上的關鍵進展,它的基本概念在原理上可以解決人工智能的各類問題。
雖然這期雜誌的問世引來了不少爭議,有人認為那篇論文屬於典型的《Nature》式炒作體,因為深度學習和蒙特卡洛算法在人工智能領域中的引用並不新鮮,不過這篇論文依然得到了學術界和產業界的認可。
Facebook人工智能組研究員、美國卡耐基梅隆大學機器人系博士田淵棟曾對DeepMind團隊發表在《Nature》上的論文做過分析,他認為,這整篇文章價值在於它是一個系統性的工作,而不是一兩個小點有了突破就能達到的勝利。
時下,AlphaGo頗為人津津樂道的是它對於neural network(神經網絡)的應用。
中山大學人機互聯實驗室主任翟振明教授在接受南方日報記者採訪時表示,70年前有學者建立了「神經網絡」數學模型,但是到目前為止,發揮效應最大的就是此次人機大戰。通過軟件模仿來建構人工的神經元,就像給計算機安裝上一個充滿神經元的「大腦」。
「這些人工神經元,有輸出端、有輸入端,關鍵是相互之間的聯通及由此產生的非線性累積迭代。」翟振明說。不過,由於人工神經元網絡的無序性,輸入進去的數據便很難追蹤,這也就意味著,即便是研發者也不知道它們到底學到了什麼樣的水平。
「所以,他們要到處找人下棋,因為他們自己也不知道AlphaGo到了一個什麼水準。」科大訊飛研究院副院長魏斯在也向記者表達了同樣的觀點。
TA的風格,不是優柔寡斷
眾所周知,AlphaGo的神經網絡有兩個,即策略網絡(Policy Network)和估值網絡(Value Network)。
DeepMind 的CEO哈薩比斯在此前介紹AlphaGo研究進展時說,AlphaGo不是做窮舉計算,策略網絡負責落子選擇,將理論上存在的200種 可能的棋步縮小到三四種得分最高的可能,從而減少計算的寬度,不用去計算所有落子可能;價值網絡則負責評估落子後的局面和最終勝負的概率關係,從而減少計 算的深度,不用徒勞地嘗試算到底。
田淵棟在介紹Facebook的圍棋人工智能時則坦言,他們的程序沒有後者,而正是後者的引入,AlphaGo棋力得到了大規模提升。它讓AlphaGo可以一邊推算落子,一邊判斷局面。
除了上述兩個網絡之外,蒙特卡洛算法的應用也頗值得關注。這一算法可以將棋局和數據庫上的信息放在一個概率函數上,這樣AlphaGo就不用對每一步棋都給以同樣計算量,然後可以對某些棋步作重點分析。
與人工神經網絡一樣,蒙特卡洛算法也有70年歷史,進入21世紀之後,研究者們開始探索「蒙特卡洛樹搜索」的全新思路,日本的ZEN和法國的CrazyStone都是在「蒙特卡洛算法」的思路上不斷改進的代表。
它以蒙特卡洛城來命名。蒙特卡洛位於地中海之濱,屬於摩納哥公國,為世界三大賭城之一。除了蒙特卡洛算法之外,還有拉斯維加斯算法,兩者都屬於一種隨機算法。
科普作家蘇椰解釋,拉斯維加斯算法可以總結為「儘量找最好的,但不保證能找到」,而蒙特卡洛算法則可以理解為「儘量找好的,但不保證是最好的」。這也意味 著,如果AlphaGo選用前者,那麼因為可能找不到最優解而陷入無法落子的尷尬局面;選用後者,則可能因落子並非最佳選擇,而導致輸棋。
不過,科學家最終選擇了蒙特卡洛算法,因為沒有永遠的最好。另外,蒙特卡洛算法的規律也說明,採樣越多就越能給出最優解,瘋狂採樣對於機器來說,從來不是問題。蘇椰就笑稱,在引入蒙特卡洛算法之前,「機器圍棋的水平幾乎是個笑話」。
中國著名圍棋手江鑄久九段曾多次與人工智能對弈,據他講述,在以前,只要在棋盤上丟幾個棄子,人工智能就會傻乎乎地圍著那幾個棄子轉。
TA的「直覺」,得靠學習
AlphaGo 的學習能力令人吃驚,據瞭解,它曾研究了圍棋的三千萬種可能,如果按照常人每半小時下一盤的速度,這三千萬種如果要學完大概需要1700 年。不過AlphaGo在學習過程中,只要兩微秒就可以走一步,這樣,三千萬種棋路在很短時間內就可以學成,而且從不疲倦。
AlphaGo的驚豔表現也讓很多人看到了「直覺」的影子。魏斯在接受記者採訪時就盛讚AlphaGo似乎有了「靈性」。他說,兩大神經網絡讓它照顧到了大勢和局面,蒙特卡洛算法又讓他像人一樣,在現有的棋面下,再往深處想幾步。
「直覺」也是圍棋魅力的一部分,當棋局達到一定深度的時候,靠的只能是直覺。據統計,圍棋棋步的數量甚至要遠高於宇宙的原子總數,圍棋的步數有10的360次方之多,而宇宙的原子數則只有10的80次方。
「如果你問一個圍棋大師為什麼這一步要這麼走,有時候他只能告訴你,這樣走感覺是對的。圍棋更像是一個靠直覺的遊戲。」哈薩比斯在此前的宣傳短片裡這樣 說,這也是圍棋程序讓很多科學家著迷的原因所在。因為再強大的數據庫也無法完全覆蓋圍棋所有棋路,要想將圍棋程序訓練成絕世高手,只能賦予它「直覺」。
黃士傑在日前也曾表示,是人類的「直覺」給了他們啟發,AlphaGo觀察圍棋的整體佈局,然後選擇最佳下法,這種方式就像依靠直覺和第六感作出判斷的人類大腦的功能。
田淵棟將這種「直覺」說成是「可以學到的模型」。據他介紹,從一開始的規則驅動的暴力搜索,到特徵驅動的線性模型,再到數據驅動的深度學習,越來越強的模式識別能力讓「直覺」兩字從神秘莫測,變成了通過大量樣本就能學到的模型。
現在常見的語音識別、圖像識別技術,就被很多人認為是機器「直覺」的一部分。
TA還沒意志和情緒
哈薩比斯曾在多個場合表達過自己的想法——設計一款世界級的圍棋冠軍並非最終目的,他要做的是編寫一款通用領域的人工智能程序。
這被很多人認為是在吹噓,魏斯在接受記者採訪時就表示,短時間內很難實現,但是AlphaGo獨特的編程依然還是讓不少人看到了它的不同之處。
《Nature》高級編輯坦吉•肖爾德在此前接受媒體採訪時就直言:「『深藍』是單一程序,只針對國際象棋,且需要科學家手工操作。而AlphaGo中包含的神經網絡程序,可以通過抓取信息實現學習技能,不需要再進行領域特定編程。」
田淵棟在對DeepMind團隊發表在《Nature》上的論文分析之後得出結論,與之前的圍棋系統相比,AlphaGo確實沒有依賴圍棋領域的知識。
然而,人工智能從專一領域到通用領域的躍進,中間隔著的是個不小的坎。田淵棟就悲觀地表示:「如何讓機器學會人類的各項能力,依舊是一座需要攀登很多年的大山。」
魏斯則認為,此次人機大戰的象徵意義大於技術突破,深層次的語義理解、感知、推理等方面的能力,現在依然比較弱。「很少有機器能分清楚『中國足球很爛,誰也贏不了』和『中國乒乓球很好,誰也贏不了』兩句中『誰也贏不了』的意思。」
翟振明將人工智能分為「強人工智能」和「弱人工智能」。目前這種沒有情緒、沒有意志的人工智能屬於「弱人工智能」。在他看來,按照現在思路來搞人工智能, 做出來的人工智能不可能有自我意識和情感意志。幾十年前他就開始研究,現在可以說已否定了圖靈測試與人的自我意識的湧現的實質性關聯。他把「強人工智能」 的希望寄託在量子力學的研究之上,他說按照量子力學的基本構架可能會有實質性突破。
據瞭解,最近美國量子物理學家斯塔普、英國物理學家彭羅斯都提出了人類意識的量子假設,中國清華大學副校長施一公院士、中科大副校長潘建偉院士等也大膽猜測,人工智能的底層機理就是量子效應。
延伸:DeepMind已公開研發過程
AlphaGo在此次人機大戰中已經展示了自己超強的學習能力,雖然尚未與柯潔交手,但是在很多人看來,未來戰勝柯潔或許僅是時間問題。柯潔與DeepMind的隔空喊話,是否能變成場上對弈,也充滿了懸念。
人機大戰的象徵意義已經產生,再爭世界第一除了商業價值之外,再無其他意義。第一還是第二,對於AlphaGo和DeepMind團隊來說,意義並不大。就像沒有哪一位圍棋選手可以一直霸佔世界第一的位子一樣。
此外,值得注意的是,據黃士傑介紹,DeepMind團隊已經把所有開發過程與論文內容在網上公開,這也意味著複製AlphaGo的技術並不會是一個多麼大的難題,只要那些研發團隊願意,在未來就可以有更多AlphaGo的出現。
「目前的人工智能只能是人類的工具,但是並不排除有朝一日,以量子力學為基礎設計出來的計算機會生產出具有第一意識『我』的人工智能,只不過那時的人工智能,就不再是工具,而是我們的同類,我們的後代。」翟振明教授如是說,「當然我們也不必以敵對的心態馬上想到的就是被『征服』被『消滅』之類的『末日』殘局」。