這次 AI 突破的是麻將！

人工智能

2019

09/02

17:07

雷鋒網(wǎng)

評論

來源：雷鋒網(wǎng) 作者：camel

圍棋 AlphaGo 點燃的 AI 之火漸漸降溫之際，微軟今天上午發(fā)布了他們在麻將游戲中取得的重大突破：麻將 AI "Suphx" 在國際知名專業(yè)麻將平臺 " 天鳳 " 上榮升十段。

" 十段 " 是什么概念呢？天鳳平臺上，全球范圍內(nèi)現(xiàn)役十段的人類選手僅十幾位。Suphx 取得 " 十段 " 的成績，大致可相當于圍棋中 AlphaGo 挑戰(zhàn)勝了李世石。

這是一個不凡的成績。

從 AI 這門學(xué)科誕生之日起，游戲 AI 始終與 AI 研究進展相生相伴，跳棋、雙陸棋、國際象棋和圍棋，都曾先后推動了 AI 的發(fā)展。

圖：MarionTinsley 與 Chinook 對戰(zhàn)（左）；GarryKasparov 與 Deep Blue 對戰(zhàn)（右）

這些棋類游戲有共同之處是，1）它們均有一個簡單而清晰的規(guī)則，有清晰的勝負判定條件和行動準則；2）博弈雙方能夠查看所有游戲狀態(tài)；3）在公眾認知中，掌握和精通這些棋牌類游戲往往在一定程度上是人類智力的彰顯。

相比以上這幾種棋類游戲，麻將卻是規(guī)則復(fù)雜、勝負判定繁瑣、信息非完全公開的，且更重要的是在公眾認知中麻將更多地有 " 運氣 " 和 " 憑直覺 " 的成分。

因此麻將 AI 若能取得超越人類的水平，可以期待它將帶來新的一波熱潮。

一、Suphx 的晉級之路

" 天鳳 " 是日本（不要問為什么不是中國四川）的一個在線麻將競技平臺，創(chuàng)立于 2006 年。因其完善的競技規(guī)則、專業(yè)的段位體系，很快便成為業(yè)界知名的高水平專業(yè)麻將平臺，受到職業(yè)麻將界的廣泛承認。

圖：天風(fēng)平臺 logo，by tenhou

我們知道，麻將的輸贏與圍棋不一樣，并不僅僅取決于玩家的實力，還取決于抓到的手牌等，如果一個人運氣比較差，拿到一手爛牌，可能再強的實力也只能是輸?shù)貌荒敲措y看。所以，麻將不像圍棋一樣，不能單靠一輪對弈，而是要通過多輪（甚至上千輪）對弈才能看出一個雀士的實力。

天鳳的評價制度，采用 Rating 制和段位制并行的制度。剛剛注冊時等級從 " 新人 " 開始，點數(shù) ( pt ) 會根據(jù)游戲的情況增減，并最終決定雀士的升段（升級）和降段（降級）。玩家的段位越高，在比賽中排位第四受到的點數(shù)懲罰也越多，點數(shù)扣除到一定程度會導(dǎo)致降段。按照這種規(guī)則，如果雀士的實力水平一定的話，自己的等級也會相對地穩(wěn)定在某一個段位上。

根據(jù)段位，游戲者可以使用的桌也會發(fā)生變化。天鳳平臺為高水平麻將玩家提供兩種競技房間：" 特上房 " 對四段以上所有玩家免費開放，允許 AI 參與游戲，目前所有玩家在此房間的最高段位是十段；" 鳳凰房 " 僅對七段以上的人類付費玩家開放，目前不允許 AI 參與游戲，在該房間能夠達到的最高段位是十一段，稱為 " 天鳳位 "。

自天鳳平臺在 2006 年推出以來，全球范圍內(nèi)達到四人麻將（四麻）天鳳位的雀士也不過 13 人，曾經(jīng)達到過十段的玩家約有 180 位，而現(xiàn)役十段的人類玩家僅有十幾位。

微軟亞洲研究院開發(fā)的麻將 AI Suphx 在今年 3 月份開始登錄天鳳平臺，經(jīng)過近三個多月、與人類玩家展開了 5000 余場四麻對局后，6 月份 Suphx 成功晉級天鳳十段，也是首個晉級十段的 AI 系統(tǒng)。

圖：天鳳平臺 " 天鳳位 " 和 " 現(xiàn)役十段 " 名單

在 5000 余場對局中，Suphx 的穩(wěn)定段位超過了 8.7。這樣的穩(wěn)定段位是一個極高的數(shù)字。

據(jù)統(tǒng)計，天鳳平臺的所有頂級人類玩家在取得十段后，在 " 特上房 " 共參加過近萬場比賽，整體穩(wěn)定段位為 7.4。與所有取得過天鳳十段的頂級人類玩家相比，Suphx 在特上房的穩(wěn)定水平要領(lǐng)先約 1.3 個段位。

此前，天鳳平臺還活躍著另外兩個麻將 AI 系統(tǒng)，由東京大學(xué)在 2015 年開發(fā)的 " 爆打 " 和 Dwango 公司于 2018 年開發(fā)的基于深度學(xué)習(xí)模型的 "NAGA25"，二者的穩(wěn)定段位均在 6.5 左右。

事實上，在晉級十段之前，Suphx 很長一段時間穩(wěn)定在九段，其獨特的打牌風(fēng)格在麻將領(lǐng)域刮起了不小的 "AI 風(fēng) "，很多麻友都嘗試從中學(xué)習(xí)新的打牌方式，并且在中國，很多麻友親切地稱她為 " 蘇菲老師 "、" 蘇菲姐姐 "。

圖：bilibili 網(wǎng)站 Suphx 牌局解析下用戶留言

此外，麻將領(lǐng)域神一級存在、被天鳳平臺冠為 "God of mahjong" 的朝倉康心（天鳳 ID：ASAPIN）也曾表示：" 我看了 Suphx 的比賽，我感覺它好像比我更強大！"

二、麻將 AI 難在哪里？

為什么說麻將 AI 戰(zhàn)勝人類，是游戲 AI 的又一次重大突破呢？因為麻將 AI 相比于棋類游戲（例如國際象棋、圍棋等）更難。

這里需要解釋的一個問題是，游戲的復(fù)雜度與游戲的難度并不完全等價，游戲難度除了與游戲本身的復(fù)雜度有關(guān)以外，還與戰(zhàn)略等多種要素相關(guān)，也就是說，數(shù)學(xué)上更復(fù)雜的游戲，玩起來不一定更難。

一般來說，我們可以根據(jù)信息的暴露程度可以將游戲分為兩大類：完美信息游戲（Perfect-Information Games）和非完美信息游戲（Imperfect-InformationGames）。如果所有的參與者，在游戲的任何階段都可以訪問所有關(guān)于游戲（包括對手）狀態(tài)及其可能延續(xù)的信息，那么稱這類游戲為完美信息游戲；否則稱為非完美信息游戲。

圍棋、象棋等棋類游戲，對局雙方可以看到局面的所有信息，屬于完美信息游戲；而撲克、橋牌、麻將等游戲，雖然每個參與者都能看到對手打過的牌，但并不知道對手的手牌和游戲的底牌，也就是說各個對局者所掌握的信息是不對稱的，因此屬于不完美信息游戲。

完美信息游戲和非完美信息游戲難度的衡量指標通常是有區(qū)別的。

對于完美信息游戲，通常游戲的復(fù)雜度就決定了難度，我們可以用狀態(tài)空間復(fù)雜度（State-Space Complexity）和游戲樹復(fù)雜度（Game-TreeComplexity）對其難度進行衡量：

圖：完美信息游戲的狀態(tài)空間復(fù)雜度和游戲樹復(fù)雜度

可以看出，對于傳統(tǒng)的完美信息棋類游戲中，圍棋不管從狀態(tài)空間復(fù)雜度，還是游戲樹復(fù)雜度上都遠遠領(lǐng)先其他棋類游戲。2017 年，AlphaZero 利用 MCTS 和深度強化學(xué)習(xí)，成功解決了包括圍棋在內(nèi)的多個完美信息游戲。我們也有理由相信，只要算力足夠，對于更加復(fù)雜的棋類游戲，我們都能通過已有的方法得到解決。

而另一方面，對于非完美信息游戲，隱藏信息對于游戲的難度影響很大。例如麻將，參與者只能看到他手中的 13 張牌的信息，對于另外三家的手牌以及剩余的底牌則完全不知。由于這種信息的不完全、非對稱性，對于參與者來說許多不同的游戲狀態(tài)看起來是無法區(qū)分的。

顯然，對于非完美信息游戲而言，合理的游戲策略應(yīng)該建立在信息集而不是游戲狀態(tài)之上。相應(yīng)地，當我們衡量非完美信息游戲的難度的時候，也應(yīng)該依據(jù)信息集的數(shù)目，而不是游戲狀態(tài)空間的大小。信息集的數(shù)目通常小于狀態(tài)空間的數(shù)目。

對于完美信息游戲，由于所有信息都是已知的，每個信息集只包含一個游戲狀態(tài)，因此它的信息集數(shù)目與狀態(tài)空間數(shù)目是相等的。

除了信息集的數(shù)目，還有一個重要的指標：信息集的平均大小，即在信息集中平均有多少不可區(qū)分的游戲狀態(tài)。

按照這兩個標準來衡量非完美信息游戲的難度：

圖：非完美信息游戲的信息集數(shù)目和信息集平均大小

2017 年卡耐基梅隆大學(xué)和阿爾伯特大學(xué)相繼發(fā)布了 Libratus 和 DeepStack，在兩人無限注德州撲克上成功擊敗了世界頂級人類玩家。

我們可以以信息集數(shù)目和信息集平均大小為準則，來對比像完美信息游戲和非完美信息游戲：

圖：圍棋、德州撲克、橋牌和麻將的信息集數(shù)目和信息集平均大小對比

從圖中可以看出，圍棋和德州撲克的信息集平均大小遠遠小于橋牌和麻將。目前的 AI 在圍棋和德州撲克上的成功很大程度依賴于搜索算法，因為搜索可以最大程度地發(fā)揮計算機的計算優(yōu)勢。但是因為巨大的信息集平均大小帶來的環(huán)境不確定性，傳統(tǒng)的搜索算法在橋牌和麻將面前很難發(fā)揮同樣的功效。

圖：游戲 AI 發(fā)展歷史

如果把過去的游戲 AI 的研究看做 " 一維延展 "（信息集數(shù)目）的話，那么德州撲克則是向二維方向（信息集平均大?。┑某跏紘L試。但整個二維平面還有更廣闊的的空間需要探索，這需要我們發(fā)明全新的方法論，同時這也將成為游戲 AI 的一個主要研究方向。

三、技術(shù)詳解

具體到麻將這個游戲。

一方面，136 張麻將牌的排列組合可能性非常多，再加上打牌過程中 4 位玩家出牌的順序并不是固定的（例如碰杠等），導(dǎo)致游戲樹不僅不規(guī)則而且還是動態(tài)變化。這些特點使得麻將 AI 很難使用 AlphaGo 那樣的蒙特卡洛樹搜索算法。

其次是非完美信息問題。麻將中每個玩家除了手中的 13 張牌和已經(jīng)打出的牌外，其他玩家手中的牌和剩余的底牌都是未知的（最多可以有超過 120 張未知的牌），由于隱藏信息過多導(dǎo)致游戲樹的寬度非常大，樹搜索算法基本不可行。

另外還需要注意的就是麻將本身的獎勵機制，畢竟這才是評判勝負的標準。對于日本麻將而言，一輪游戲共包含 8 局，最后根據(jù) 8 局得分總和進行排名，來形成最終影響段位的點數(shù)獎懲。因此有時麻將高手會策略性輸牌，以保證自己在最終結(jié)算時獲得最大的點數(shù)獎勵。這為構(gòu)建高超的麻將 AI 策略帶來了額外的挑戰(zhàn)，AI 需要審時度勢，把握進攻與防守的時機。

微軟亞洲研究院的幾位研究員針對麻將的這些特點，將整個訓(xùn)練過程分為三個階段。

首先是 " 初始化 " 階段，本質(zhì)上就是用專家數(shù)據(jù)（天鳳平臺提供的一些公開數(shù)據(jù)）做有監(jiān)督學(xué)習(xí)，得到一個初始模型。

圖：先知教練，即利用隱藏信息指導(dǎo) AI 模型訓(xùn)練方向。

隨后在這個初始模型基礎(chǔ)上用自我博弈的方式進行強化學(xué)習(xí)。在這個階段，為了克服非完美信息博弈的問題，研究者在訓(xùn)練階段利用不可見的一些隱藏信息來引導(dǎo) AI 模型的訓(xùn)練方向，讓它的學(xué)習(xí)路徑更加清晰、更加接近完美信息意義下的最優(yōu)路徑，從而倒逼 AI 模型更加深入地理解可見信息，從中找到有效的決策依據(jù)。他們稱之為 " 先知教練 " 技術(shù)。

與此同時，對于麻將復(fù)雜的牌面表達和計分機制，研究團隊還利用 " 全盤預(yù)測 " 技術(shù)搭建起每輪比賽和 8 輪過后的終盤結(jié)果之間的橋梁。這個預(yù)測器通過精巧的設(shè)計，可以理解每輪比賽對終盤的不同貢獻，從而將終盤的獎勵信號合理地分配回每一輪比賽之中，以便對自我博弈的過程進行更加直接而有效的指導(dǎo)，并使得 Suphx 可以學(xué)會一些具有大局觀的高級技巧。

為了應(yīng)對巨大的狀態(tài)空間，研究團隊引入全新的機制對探索過程的多樣性進行動態(tài)調(diào)控，讓 Suphx 可以比傳統(tǒng)算法更加充分地試探牌局狀態(tài)的不同可能。另一方面，一旦某一輪的底牌給定，其狀態(tài)子空間會大幅縮小，所以研究團隊讓 Suphx 在推理階段根據(jù)本輪的牌局來動態(tài)調(diào)整策略，對縮小了的狀態(tài)子空間進行更有針對性的探索，從而更好地根據(jù)本輪牌局的演進做出自適應(yīng)的決策。

第三個階段則是在線比賽，通過不斷參與到與人類玩家的對局中，從而不斷得到自我更新和提高。

自今年 3 月進入天鳳平臺以來，Suphx 在與人類玩家的對局中學(xué)得非?？臁Ｄ壳?，在平衡攻擊和防御方面，Suphx 表現(xiàn)出了比許多頂尖人類玩家更明智的策略，能夠戰(zhàn)略性地完成短期損失與長期收益之間的權(quán)衡，并根據(jù)已有的模糊信息進行快速決策。

四、開拓游戲 AI 二次元

盡管目前來看 Suphx 在天鳳平臺上只是達到十段水平，距離 " 天鳳位 " 還有一定距離，但我們可以相信一旦天鳳平臺開放權(quán)限，Suphx 達到并超越 " 天鳳位 " 的諸位玩家將指日可待，這也將成為繼 AlphaGo 之后再次挑戰(zhàn)人類認知的歷史事件。

不過它的意義并不僅在于 " 震驚 "，更在于對研究和應(yīng)用方向的開拓。

正如前面提到的，麻將 AI 的研究為游戲 AI 在 " 第二維度 " 開辟了新的方向，并進行了極大地拓展。我們可以期待未來在 " 第二維度 " 上將會有更多的研究出現(xiàn)。甚至為了更進一步拓展研究范圍，可能會有一些研究人員發(fā)明出具有更大信息集數(shù)目和更大信息集平均大小的新游戲來。這不是不可能。

此外，我們所生活的世界也正是一個非完美信息的決策過程，麻將游戲中復(fù)雜的推理策略和帶有隨機性的博弈過程，比完美信息游戲更加貼近人類復(fù)雜的真實生活。我們同樣可以期待，對非完美信息游戲的研究，將有助于我們開發(fā)出適用于真實生活場景的更加 " 智能 " 的 AI 系統(tǒng)。

當然，最直接的意義還在于，Suphx" 蘇菲老師 " 在牌風(fēng)上已經(jīng)自成一派，創(chuàng)造了許多新的策略和打法，這將直接改變麻將社區(qū)的生態(tài)。許多麻將愛好者已經(jīng)開始學(xué)習(xí) Suphx 的打法來提升和豐富自己的麻將技巧，這其中包括天鳳位的大神太くないお，他是世界上第 15 位三人麻將天鳳位獲得者，也是第一位在四人麻將和三人麻將中均取得天鳳位的頂級玩家。他表示：" 我已經(jīng)看了 300 多場 Suphx 的比賽，我甚至不再觀看人類玩家的比賽了。我從 Suphx 身上學(xué)到很多新技術(shù)，它們對于我的三人麻將打法有著非常大的啟發(fā)意義。"

期待 " 蘇菲老師 " 晉升天鳳位。雷鋒網(wǎng)報道。

相關(guān)閱讀

[ 1 ] 游戲 AI 的緣起與進化，https://mp.weixin.qq.com/s/p1XYJIqVrUUvSxRQcxBkoA

[ 2 ] 哪類游戲 AI 難度更高？用數(shù)學(xué)方法來分析一下，https://mp.weixin.qq.com/s/ZIlhWK19qXFsb3jOQaGGfw

[ 3 ] 游戲 AI 挑戰(zhàn)進階，即時策略游戲和非完美信息游戲成為熱點，https://mp.weixin.qq.com/s/cB0zczZ5ZkqaNvNw2KDshw

THE END

廣告、內(nèi)容合作請點擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點和立場。