來(lái)源:雷鋒網(wǎng) 作者:camel
圍棋 AlphaGo 點(diǎn)燃的 AI 之火漸漸降溫之際,微軟今天上午發(fā)布了他們?cè)诼閷?a target="_blank">游戲中取得的重大突破:麻將 AI "Suphx" 在國(guó)際知名專業(yè)麻將平臺(tái) " 天鳳 " 上榮升十段。
" 十段 " 是什么概念呢?天鳳平臺(tái)上,全球范圍內(nèi)現(xiàn)役十段的人類選手僅十幾位。Suphx 取得 " 十段 " 的成績(jī),大致可相當(dāng)于圍棋中 AlphaGo 挑戰(zhàn)勝了李世石。
這是一個(gè)不凡的成績(jī)。
從 AI 這門(mén)學(xué)科誕生之日起,游戲 AI 始終與 AI 研究進(jìn)展相生相伴,跳棋、雙陸棋、國(guó)際象棋和圍棋,都曾先后推動(dòng)了 AI 的發(fā)展。
圖:MarionTinsley 與 Chinook 對(duì)戰(zhàn)(左);GarryKasparov 與 Deep Blue 對(duì)戰(zhàn)(右)
這些棋類游戲有共同之處是,1)它們均有一個(gè)簡(jiǎn)單而清晰的規(guī)則,有清晰的勝負(fù)判定條件和行動(dòng)準(zhǔn)則;2)博弈雙方能夠查看所有游戲狀態(tài);3)在公眾認(rèn)知中,掌握和精通這些棋牌類游戲往往在一定程度上是人類智力的彰顯。
相比以上這幾種棋類游戲,麻將卻是規(guī)則復(fù)雜、勝負(fù)判定繁瑣、信息非完全公開(kāi)的,且更重要的是在公眾認(rèn)知中麻將更多地有 " 運(yùn)氣 " 和 " 憑直覺(jué) " 的成分。
因此麻將 AI 若能取得超越人類的水平,可以期待它將帶來(lái)新的一波熱潮。
一、Suphx 的晉級(jí)之路
" 天鳳 " 是日本(不要問(wèn)為什么不是中國(guó)四川)的一個(gè)在線麻將競(jìng)技平臺(tái),創(chuàng)立于 2006 年。因其完善的競(jìng)技規(guī)則、專業(yè)的段位體系,很快便成為業(yè)界知名的高水平專業(yè)麻將平臺(tái),受到職業(yè)麻將界的廣泛承認(rèn)。
圖:天風(fēng)平臺(tái) logo,by tenhou
我們知道,麻將的輸贏與圍棋不一樣,并不僅僅取決于玩家的實(shí)力,還取決于抓到的手牌等,如果一個(gè)人運(yùn)氣比較差,拿到一手爛牌,可能再?gòu)?qiáng)的實(shí)力也只能是輸?shù)貌荒敲措y看。所以,麻將不像圍棋一樣,不能單靠一輪對(duì)弈,而是要通過(guò)多輪(甚至上千輪)對(duì)弈才能看出一個(gè)雀士的實(shí)力。
天鳳的評(píng)價(jià)制度,采用 Rating 制和段位制并行的制度。剛剛注冊(cè)時(shí)等級(jí)從 " 新人 " 開(kāi)始,點(diǎn)數(shù) ( pt ) 會(huì)根據(jù)游戲的情況增減,并最終決定雀士的升段(升級(jí))和降段(降級(jí))。玩家的段位越高,在比賽中排位第四受到的點(diǎn)數(shù)懲罰也越多,點(diǎn)數(shù)扣除到一定程度會(huì)導(dǎo)致降段。按照這種規(guī)則,如果雀士的實(shí)力水平一定的話,自己的等級(jí)也會(huì)相對(duì)地穩(wěn)定在某一個(gè)段位上。
根據(jù)段位,游戲者可以使用的桌也會(huì)發(fā)生變化。天鳳平臺(tái)為高水平麻將玩家提供兩種競(jìng)技房間:" 特上房 " 對(duì)四段以上所有玩家免費(fèi)開(kāi)放,允許 AI 參與游戲,目前所有玩家在此房間的最高段位是十段;" 鳳凰房 " 僅對(duì)七段以上的人類付費(fèi)玩家開(kāi)放,目前不允許 AI 參與游戲,在該房間能夠達(dá)到的最高段位是十一段,稱為 " 天鳳位 "。
自天鳳平臺(tái)在 2006 年推出以來(lái),全球范圍內(nèi)達(dá)到四人麻將(四麻)天鳳位的雀士也不過(guò) 13 人,曾經(jīng)達(dá)到過(guò)十段的玩家約有 180 位,而現(xiàn)役十段的人類玩家僅有十幾位。
微軟亞洲研究院開(kāi)發(fā)的麻將 AI Suphx 在今年 3 月份開(kāi)始登錄天鳳平臺(tái),經(jīng)過(guò)近三個(gè)多月、與人類玩家展開(kāi)了 5000 余場(chǎng)四麻對(duì)局后,6 月份 Suphx 成功晉級(jí)天鳳十段,也是首個(gè)晉級(jí)十段的 AI 系統(tǒng)。
圖:天鳳平臺(tái) " 天鳳位 " 和 " 現(xiàn)役十段 " 名單
在 5000 余場(chǎng)對(duì)局中,Suphx 的穩(wěn)定段位超過(guò)了 8.7。這樣的穩(wěn)定段位是一個(gè)極高的數(shù)字。
據(jù)統(tǒng)計(jì),天鳳平臺(tái)的所有頂級(jí)人類玩家在取得十段后,在 " 特上房 " 共參加過(guò)近萬(wàn)場(chǎng)比賽,整體穩(wěn)定段位為 7.4。與所有取得過(guò)天鳳十段的頂級(jí)人類玩家相比,Suphx 在特上房的穩(wěn)定水平要領(lǐng)先約 1.3 個(gè)段位。
此前,天鳳平臺(tái)還活躍著另外兩個(gè)麻將 AI 系統(tǒng),由東京大學(xué)在 2015 年開(kāi)發(fā)的 " 爆打 " 和 Dwango 公司于 2018 年開(kāi)發(fā)的基于深度學(xué)習(xí)模型的 "NAGA25",二者的穩(wěn)定段位均在 6.5 左右。
事實(shí)上,在晉級(jí)十段之前,Suphx 很長(zhǎng)一段時(shí)間穩(wěn)定在九段,其獨(dú)特的打牌風(fēng)格在麻將領(lǐng)域刮起了不小的 "AI 風(fēng) ",很多麻友都嘗試從中學(xué)習(xí)新的打牌方式,并且在中國(guó),很多麻友親切地稱她為 " 蘇菲老師 "、" 蘇菲姐姐 "。
圖:bilibili 網(wǎng)站 Suphx 牌局解析下用戶留言
此外,麻將領(lǐng)域神一級(jí)存在、被天鳳平臺(tái)冠為 "God of mahjong" 的朝倉(cāng)康心(天鳳 ID:ASAPIN)也曾表示:" 我看了 Suphx 的比賽,我感覺(jué)它好像比我更強(qiáng)大!"
二、麻將 AI 難在哪里?
為什么說(shuō)麻將 AI 戰(zhàn)勝人類,是游戲 AI 的又一次重大突破呢?因?yàn)槁閷?AI 相比于棋類游戲(例如國(guó)際象棋、圍棋等)更難。
這里需要解釋的一個(gè)問(wèn)題是,游戲的復(fù)雜度與游戲的難度并不完全等價(jià),游戲難度除了與游戲本身的復(fù)雜度有關(guān)以外,還與戰(zhàn)略等多種要素相關(guān),也就是說(shuō),數(shù)學(xué)上更復(fù)雜的游戲,玩起來(lái)不一定更難。
一般來(lái)說(shuō),我們可以根據(jù)信息的暴露程度可以將游戲分為兩大類:完美信息游戲(Perfect-Information Games)和非完美信息游戲(Imperfect-InformationGames)。如果所有的參與者,在游戲的任何階段都可以訪問(wèn)所有關(guān)于游戲(包括對(duì)手)狀態(tài)及其可能延續(xù)的信息,那么稱這類游戲?yàn)橥昝佬畔⒂螒?;否則稱為非完美信息游戲。
圍棋、象棋等棋類游戲,對(duì)局雙方可以看到局面的所有信息,屬于完美信息游戲;而撲克、橋牌、麻將等游戲,雖然每個(gè)參與者都能看到對(duì)手打過(guò)的牌,但并不知道對(duì)手的手牌和游戲的底牌,也就是說(shuō)各個(gè)對(duì)局者所掌握的信息是不對(duì)稱的,因此屬于不完美信息游戲。
完美信息游戲和非完美信息游戲難度的衡量指標(biāo)通常是有區(qū)別的。
對(duì)于完美信息游戲,通常游戲的復(fù)雜度就決定了難度,我們可以用狀態(tài)空間復(fù)雜度(State-Space Complexity)和游戲樹(shù)復(fù)雜度(Game-TreeComplexity)對(duì)其難度進(jìn)行衡量:
圖:完美信息游戲的狀態(tài)空間復(fù)雜度和游戲樹(shù)復(fù)雜度
可以看出,對(duì)于傳統(tǒng)的完美信息棋類游戲中,圍棋不管從狀態(tài)空間復(fù)雜度,還是游戲樹(shù)復(fù)雜度上都遠(yuǎn)遠(yuǎn)領(lǐng)先其他棋類游戲。2017 年,AlphaZero 利用 MCTS 和深度強(qiáng)化學(xué)習(xí),成功解決了包括圍棋在內(nèi)的多個(gè)完美信息游戲。我們也有理由相信,只要算力足夠,對(duì)于更加復(fù)雜的棋類游戲,我們都能通過(guò)已有的方法得到解決。
而另一方面,對(duì)于非完美信息游戲,隱藏信息對(duì)于游戲的難度影響很大。例如麻將,參與者只能看到他手中的 13 張牌的信息,對(duì)于另外三家的手牌以及剩余的底牌則完全不知。由于這種信息的不完全、非對(duì)稱性,對(duì)于參與者來(lái)說(shuō)許多不同的游戲狀態(tài)看起來(lái)是無(wú)法區(qū)分的。
顯然,對(duì)于非完美信息游戲而言,合理的游戲策略應(yīng)該建立在信息集而不是游戲狀態(tài)之上。相應(yīng)地,當(dāng)我們衡量非完美信息游戲的難度的時(shí)候,也應(yīng)該依據(jù)信息集的數(shù)目,而不是游戲狀態(tài)空間的大小。信息集的數(shù)目通常小于狀態(tài)空間的數(shù)目。
對(duì)于完美信息游戲,由于所有信息都是已知的,每個(gè)信息集只包含一個(gè)游戲狀態(tài),因此它的信息集數(shù)目與狀態(tài)空間數(shù)目是相等的。
除了信息集的數(shù)目,還有一個(gè)重要的指標(biāo):信息集的平均大小,即在信息集中平均有多少不可區(qū)分的游戲狀態(tài)。
按照這兩個(gè)標(biāo)準(zhǔn)來(lái)衡量非完美信息游戲的難度:
圖:非完美信息游戲的信息集數(shù)目和信息集平均大小
2017 年卡耐基梅隆大學(xué)和阿爾伯特大學(xué)相繼發(fā)布了 Libratus 和 DeepStack,在兩人無(wú)限注德州撲克上成功擊敗了世界頂級(jí)人類玩家。
我們可以以信息集數(shù)目和信息集平均大小為準(zhǔn)則,來(lái)對(duì)比像完美信息游戲和非完美信息游戲:
圖:圍棋、德州撲克、橋牌和麻將的信息集數(shù)目和信息集平均大小對(duì)比
從圖中可以看出,圍棋和德州撲克的信息集平均大小遠(yuǎn)遠(yuǎn)小于橋牌和麻將。目前的 AI 在圍棋和德州撲克上的成功很大程度依賴于搜索算法,因?yàn)樗阉骺梢宰畲蟪潭鹊匕l(fā)揮計(jì)算機(jī)的計(jì)算優(yōu)勢(shì)。但是因?yàn)榫薮蟮男畔⒓骄笮?lái)的環(huán)境不確定性,傳統(tǒng)的搜索算法在橋牌和麻將面前很難發(fā)揮同樣的功效。
圖:游戲 AI 發(fā)展歷史
如果把過(guò)去的游戲 AI 的研究看做 " 一維延展 "(信息集數(shù)目)的話,那么德州撲克則是向二維方向(信息集平均大?。┑某跏紘L試。但整個(gè)二維平面還有更廣闊的的空間需要探索,這需要我們發(fā)明全新的方法論,同時(shí)這也將成為游戲 AI 的一個(gè)主要研究方向。
三、技術(shù)詳解
具體到麻將這個(gè)游戲。
一方面,136 張麻將牌的排列組合可能性非常多,再加上打牌過(guò)程中 4 位玩家出牌的順序并不是固定的(例如碰杠等),導(dǎo)致游戲樹(shù)不僅不規(guī)則而且還是動(dòng)態(tài)變化。這些特點(diǎn)使得麻將 AI 很難使用 AlphaGo 那樣的蒙特卡洛樹(shù)搜索算法。
其次是非完美信息問(wèn)題。麻將中每個(gè)玩家除了手中的 13 張牌和已經(jīng)打出的牌外,其他玩家手中的牌和剩余的底牌都是未知的(最多可以有超過(guò) 120 張未知的牌),由于隱藏信息過(guò)多導(dǎo)致游戲樹(shù)的寬度非常大,樹(shù)搜索算法基本不可行。
另外還需要注意的就是麻將本身的獎(jiǎng)勵(lì)機(jī)制,畢竟這才是評(píng)判勝負(fù)的標(biāo)準(zhǔn)。對(duì)于日本麻將而言,一輪游戲共包含 8 局,最后根據(jù) 8 局得分總和進(jìn)行排名,來(lái)形成最終影響段位的點(diǎn)數(shù)獎(jiǎng)懲。因此有時(shí)麻將高手會(huì)策略性輸牌,以保證自己在最終結(jié)算時(shí)獲得最大的點(diǎn)數(shù)獎(jiǎng)勵(lì)。這為構(gòu)建高超的麻將 AI 策略帶來(lái)了額外的挑戰(zhàn),AI 需要審時(shí)度勢(shì),把握進(jìn)攻與防守的時(shí)機(jī)。
微軟亞洲研究院的幾位研究員針對(duì)麻將的這些特點(diǎn),將整個(gè)訓(xùn)練過(guò)程分為三個(gè)階段。
首先是 " 初始化 " 階段,本質(zhì)上就是用專家數(shù)據(jù)(天鳳平臺(tái)提供的一些公開(kāi)數(shù)據(jù))做有監(jiān)督學(xué)習(xí),得到一個(gè)初始模型。
圖:先知教練,即利用隱藏信息指導(dǎo) AI 模型訓(xùn)練方向。
隨后在這個(gè)初始模型基礎(chǔ)上用自我博弈的方式進(jìn)行強(qiáng)化學(xué)習(xí)。在這個(gè)階段,為了克服非完美信息博弈的問(wèn)題,研究者在訓(xùn)練階段利用不可見(jiàn)的一些隱藏信息來(lái)引導(dǎo) AI 模型的訓(xùn)練方向,讓它的學(xué)習(xí)路徑更加清晰、更加接近完美信息意義下的最優(yōu)路徑,從而倒逼 AI 模型更加深入地理解可見(jiàn)信息,從中找到有效的決策依據(jù)。他們稱之為 " 先知教練 " 技術(shù)。
與此同時(shí),對(duì)于麻將復(fù)雜的牌面表達(dá)和計(jì)分機(jī)制,研究團(tuán)隊(duì)還利用 " 全盤(pán)預(yù)測(cè) " 技術(shù)搭建起每輪比賽和 8 輪過(guò)后的終盤(pán)結(jié)果之間的橋梁。這個(gè)預(yù)測(cè)器通過(guò)精巧的設(shè)計(jì),可以理解每輪比賽對(duì)終盤(pán)的不同貢獻(xiàn),從而將終盤(pán)的獎(jiǎng)勵(lì)信號(hào)合理地分配回每一輪比賽之中,以便對(duì)自我博弈的過(guò)程進(jìn)行更加直接而有效的指導(dǎo),并使得 Suphx 可以學(xué)會(huì)一些具有大局觀的高級(jí)技巧。
為了應(yīng)對(duì)巨大的狀態(tài)空間,研究團(tuán)隊(duì)引入全新的機(jī)制對(duì)探索過(guò)程的多樣性進(jìn)行動(dòng)態(tài)調(diào)控,讓 Suphx 可以比傳統(tǒng)算法更加充分地試探牌局狀態(tài)的不同可能。另一方面,一旦某一輪的底牌給定,其狀態(tài)子空間會(huì)大幅縮小,所以研究團(tuán)隊(duì)讓 Suphx 在推理階段根據(jù)本輪的牌局來(lái)動(dòng)態(tài)調(diào)整策略,對(duì)縮小了的狀態(tài)子空間進(jìn)行更有針對(duì)性的探索,從而更好地根據(jù)本輪牌局的演進(jìn)做出自適應(yīng)的決策。
第三個(gè)階段則是在線比賽,通過(guò)不斷參與到與人類玩家的對(duì)局中,從而不斷得到自我更新和提高。
自今年 3 月進(jìn)入天鳳平臺(tái)以來(lái),Suphx 在與人類玩家的對(duì)局中學(xué)得非常快。目前,在平衡攻擊和防御方面,Suphx 表現(xiàn)出了比許多頂尖人類玩家更明智的策略,能夠戰(zhàn)略性地完成短期損失與長(zhǎng)期收益之間的權(quán)衡,并根據(jù)已有的模糊信息進(jìn)行快速?zèng)Q策。
四、開(kāi)拓游戲 AI 二次元
盡管目前來(lái)看 Suphx 在天鳳平臺(tái)上只是達(dá)到十段水平,距離 " 天鳳位 " 還有一定距離,但我們可以相信一旦天鳳平臺(tái)開(kāi)放權(quán)限,Suphx 達(dá)到并超越 " 天鳳位 " 的諸位玩家將指日可待,這也將成為繼 AlphaGo 之后再次挑戰(zhàn)人類認(rèn)知的歷史事件。
不過(guò)它的意義并不僅在于 " 震驚 ",更在于對(duì)研究和應(yīng)用方向的開(kāi)拓。
正如前面提到的,麻將 AI 的研究為游戲 AI 在 " 第二維度 " 開(kāi)辟了新的方向,并進(jìn)行了極大地拓展。我們可以期待未來(lái)在 " 第二維度 " 上將會(huì)有更多的研究出現(xiàn)。甚至為了更進(jìn)一步拓展研究范圍,可能會(huì)有一些研究人員發(fā)明出具有更大信息集數(shù)目和更大信息集平均大小的新游戲來(lái)。這不是不可能。
此外,我們所生活的世界也正是一個(gè)非完美信息的決策過(guò)程,麻將游戲中復(fù)雜的推理策略和帶有隨機(jī)性的博弈過(guò)程,比完美信息游戲更加貼近人類復(fù)雜的真實(shí)生活。我們同樣可以期待,對(duì)非完美信息游戲的研究,將有助于我們開(kāi)發(fā)出適用于真實(shí)生活場(chǎng)景的更加 " 智能 " 的 AI 系統(tǒng)。
當(dāng)然,最直接的意義還在于,Suphx" 蘇菲老師 " 在牌風(fēng)上已經(jīng)自成一派,創(chuàng)造了許多新的策略和打法,這將直接改變麻將社區(qū)的生態(tài)。許多麻將愛(ài)好者已經(jīng)開(kāi)始學(xué)習(xí) Suphx 的打法來(lái)提升和豐富自己的麻將技巧,這其中包括天鳳位的大神太くないお,他是世界上第 15 位三人麻將天鳳位獲得者,也是第一位在四人麻將和三人麻將中均取得天鳳位的頂級(jí)玩家。他表示:" 我已經(jīng)看了 300 多場(chǎng) Suphx 的比賽,我甚至不再觀看人類玩家的比賽了。我從 Suphx 身上學(xué)到很多新技術(shù),它們對(duì)于我的三人麻將打法有著非常大的啟發(fā)意義。"
期待 " 蘇菲老師 " 晉升天鳳位。雷鋒網(wǎng)報(bào)道。
相關(guān)閱讀
[ 1 ] 游戲 AI 的緣起與進(jìn)化,https://mp.weixin.qq.com/s/p1XYJIqVrUUvSxRQcxBkoA
[ 2 ] 哪類游戲 AI 難度更高?用數(shù)學(xué)方法來(lái)分析一下,https://mp.weixin.qq.com/s/ZIlhWK19qXFsb3jOQaGGfw
[ 3 ] 游戲 AI 挑戰(zhàn)進(jìn)階,即時(shí)策略游戲和非完美信息游戲成為熱點(diǎn),https://mp.weixin.qq.com/s/cB0zczZ5ZkqaNvNw2KDshw