從麻將到“農(nóng)藥” 細(xì)數(shù) AI 攻占的游戲領(lǐng)域

人工智能

2020

02/08

23:31

雷鋒網(wǎng)

評(píng)論

出處：雷鋒網(wǎng) 作者：蔣寶尚

按照傳統(tǒng)，過(guò)年需要走親訪友給長(zhǎng)輩拜年的。但是今年情況特殊，相信大家已經(jīng)不會(huì)走街串巷，舉行大型聚會(huì)了。

但親朋好友聚仍然可以“云聚會(huì)”聊家常、催你結(jié)婚。當(dāng)然線上搓兩把麻將也是不錯(cuò)的娛樂(lè)方式，畢竟這在促進(jìn)相互交流的同時(shí)，還可以發(fā)揮你的聰明才智和運(yùn)氣。

但是要記住，你線上隨機(jī)匹配對(duì)戰(zhàn)的話，很容易被AI給“伏擊”了。因?yàn)檫@兩年除了圍棋、DOTA之外，AI已經(jīng)悄無(wú)聲息的攻占了些許游戲領(lǐng)域。下面就讓雷鋒網(wǎng) 給大家梳理一下已經(jīng)被AI攻占的娛樂(lè)領(lǐng)域，也歡迎讀者文末留言補(bǔ)充。

AI麻將獲人類(lèi)頂級(jí)水平

2019年8月份微軟發(fā)布了他們?cè)诼閷⒂螒蛑腥〉玫闹卮笸黄疲郝閷I “Suphx”在國(guó)際知名專(zhuān)業(yè)麻將平臺(tái)“天鳳”上榮升十段。

“天鳳”是日本的一個(gè)在線麻將競(jìng)技平臺(tái)，創(chuàng)立于2006年。天鳳平臺(tái)的“十段”水平意味著Suphx在麻將界擁有了等同于AlphaGo在圍棋界的地位。

Suphx在2019年3月份開(kāi)始登錄天鳳平臺(tái)，經(jīng)過(guò)近三個(gè)多月、與人類(lèi)玩家展開(kāi)了5000余場(chǎng)四麻對(duì)局后，6月份Suphx成功晉級(jí)天鳳十段，也是首個(gè)晉級(jí)十段的AI系統(tǒng)。

從麻將到“農(nóng)藥” 細(xì)數(shù) AI 攻占的游戲領(lǐng)域

技術(shù)簡(jiǎn)介以及策略

136張麻將牌的排列組合可能性非常多，再加上打牌過(guò)程中4位玩家出牌的順序并不是固定的（例如碰杠等），導(dǎo)致游戲樹(shù)不僅不規(guī)則而且還是動(dòng)態(tài)變化。

這些特點(diǎn)使得麻將AI很難使用AlphaGo那樣的蒙特卡洛樹(shù)搜索算法。麻將中每個(gè)玩家除了手中的13張牌和已經(jīng)打出的牌外，其他玩家手中的牌和剩余的底牌都是未知的（最多可以有超過(guò)120張未知的牌），由于隱藏信息過(guò)多導(dǎo)致游戲樹(shù)的寬度非常大，樹(shù)搜索算法基本不可行。

對(duì)于日本麻將而言，一輪游戲共包含8局，最后根據(jù)8局得分總和進(jìn)行排名，來(lái)形成最終影響段位的點(diǎn)數(shù)獎(jiǎng)懲。所以AI需要審時(shí)度勢(shì)，把握進(jìn)攻與防守的時(shí)機(jī)。

對(duì)麻將的這些特點(diǎn)，研究者將整個(gè)訓(xùn)練過(guò)程分為三個(gè)階段。首先是“初始化”階段，本質(zhì)上就是用專(zhuān)家數(shù)據(jù)（天鳳平臺(tái)提供的一些公開(kāi)數(shù)據(jù)）做有監(jiān)督學(xué)習(xí)，得到一個(gè)初始模型。隨后在這個(gè)初始模型基礎(chǔ)上用自我博弈的方式進(jìn)行強(qiáng)化學(xué)習(xí)。

在這個(gè)階段，為了克服非完美信息博弈的問(wèn)題，研究者在訓(xùn)練階段利用不可見(jiàn)的一些隱藏信息來(lái)引導(dǎo)AI模型的訓(xùn)練方向。此外還利用“全盤(pán)預(yù)測(cè)”技術(shù)搭建起每輪比賽和8輪過(guò)后的終盤(pán)結(jié)果之間的橋梁。第三個(gè)階段則是在線比賽，通過(guò)不斷參與到與人類(lèi)玩家的對(duì)局中，從而不斷得到自我更新和提高。

AI 賭神升級(jí)6人局德?lián)渫陝偈澜绻谲?/strong>

2017年年初，在卡耐基梅隆大學(xué)(CMU)舉行了德州撲克人機(jī)大戰(zhàn)，在比賽中4名人類(lèi)職業(yè)玩家組成的人類(lèi)大腦敗給了人工智能程序Libratus。

如果說(shuō)當(dāng)時(shí)Libratus擅長(zhǎng)的是1V1領(lǐng)域，那么2019年7月份的Pluribus在無(wú)限制德州撲克6人局里，戰(zhàn)勝了人類(lèi)頂尖選手。

Pluribus由Facebook與CMU合作開(kāi)發(fā)，相關(guān)論文發(fā)表在了《Sicence》上面。據(jù)《Superhuman AI for multiplayer poker》這篇論文介紹，Pluribus，每小時(shí)能贏1千刀且只用了8天的訓(xùn)練時(shí)間。

技術(shù)簡(jiǎn)介以及策略

根據(jù)論文介紹，整個(gè)AI的設(shè)計(jì)分為兩個(gè)階段，第一階段為藍(lán)圖策略，這一階段是為了降低游戲的復(fù)雜性，進(jìn)行游戲抽象。抽象分為兩個(gè)部分動(dòng)作抽象和信息抽象：動(dòng)作抽象減少了AI需要考慮的不同動(dòng)作的數(shù)量；信息抽象則是把策略上相似的牌局放在一起，并對(duì)其進(jìn)行相同處理。

當(dāng)然除了抽象之外，這部分所采用的算法是迭代的蒙特卡洛反事實(shí)遺憾最小化算法（MCCFR）。在算法的每次迭代中，MCCFR對(duì)玩家的某些行為或機(jī)會(huì)結(jié)果進(jìn)行采樣。在迭代結(jié)束時(shí)，玩家策略會(huì)更新，然后對(duì)每個(gè)可能發(fā)生的情況進(jìn)行概率統(tǒng)計(jì)，通過(guò)搜索決策樹(shù)來(lái)決定下一步的行為。

第二階段是深度限制搜索，這一階段Pluribus會(huì)進(jìn)行實(shí)時(shí)搜索，制定更精細(xì)的策略。

算法假設(shè)每個(gè)玩家在到達(dá)葉子結(jié)點(diǎn)時(shí)，可以選擇四種不同的策略來(lái)進(jìn)行下面的游戲，其中包括預(yù)先計(jì)算的藍(lán)圖策略，修改后偏向于棄牌的藍(lán)圖策略，修改后偏向于跟注的藍(lán)圖策略，以及修改后偏向于加注的藍(lán)圖策略。這樣的搜索方法能找到一種更平衡的策略，從而產(chǎn)生更強(qiáng)的整體表現(xiàn)。

總的來(lái)說(shuō)，Pluribus通過(guò)將類(lèi)似的情況打包在一起，減少了關(guān)于是否跟注(call)、加注(raise)或棄牌(fold)的決策點(diǎn)的數(shù)量。使用蒙特卡羅虛擬遺憾最小化(MCCFR)，將撲克游戲中樹(shù)搜索的復(fù)雜性從一個(gè)棘手的問(wèn)題降低到一個(gè)可解決的問(wèn)題。

AI “絕悟”已達(dá)到王者榮耀職業(yè)水平

2019 年 8 月 2 日，在吉隆坡舉辦的《王者榮耀》世界冠軍杯（該游戲最高規(guī)格的賽事）半決賽的特設(shè)環(huán)節(jié)中，騰訊 AI Lab 策略協(xié)作型 AI “絕悟”在與職業(yè)選手賽區(qū)聯(lián)隊(duì)的 5v5 競(jìng)技中獲勝。這表明絕悟 AI 已經(jīng)達(dá)到了《王者榮耀》電競(jìng)職業(yè)水平。

“絕悟”名字寓意絕佳領(lǐng)悟力，其技術(shù)研發(fā)始于2017年12月，并在2018年12月通過(guò)了頂尖業(yè)余水平測(cè)試（前職業(yè)選手與主播聯(lián)隊(duì)帶來(lái)）。

技術(shù)簡(jiǎn)介以及策略

“絕悟”版本建立了基于“觀察-行動(dòng)-獎(jiǎng)勵(lì)”的深度強(qiáng)化學(xué)習(xí)模型，無(wú)需人類(lèi)數(shù)據(jù)，從白板學(xué)習(xí)（Tabula Rasa）開(kāi)始，讓 AI 自己與自己對(duì)戰(zhàn)，一天的訓(xùn)練強(qiáng)度高達(dá)人類(lèi) 440 年。

AI 從0到1摸索成功經(jīng)驗(yàn)，勤學(xué)苦練，既學(xué)會(huì)了如何站位、打野、輔助保護(hù)和躲避傷害等游戲常識(shí)。更驚喜的是，AI 也探索出了不同于人類(lèi)常規(guī)做法的全新策略。

游戲中的難點(diǎn)，是 AI 要在不完全信息、高度復(fù)雜度的情況作出復(fù)雜快速的決策。在龐大且信息不完備的地圖上，10位參與者要在策略規(guī)劃、英雄選擇、技能應(yīng)用、路徑探索及團(tuán)隊(duì)協(xié)作上面臨大量、不間斷、即時(shí)的選擇，這帶來(lái)了極為復(fù)雜的局面，預(yù)計(jì)有高達(dá)10的20000次方種操作可能性，而整個(gè)宇宙原子總數(shù)也只是10的80次方。

另外，版本相關(guān)的技術(shù)論文被頂級(jí)學(xué)術(shù)會(huì)議 AAAI 2020 接收。

寫(xiě)作AI 跨界下象棋

OpenAI 的 GPT-2在文本生成上有著驚艷的表現(xiàn)，其生成的文本在上下文連貫性和情感表達(dá)上都超過(guò)了人們對(duì)目前階段語(yǔ)言模型的預(yù)期。

具體而言這種機(jī)器學(xué)習(xí)算法可以在很多任務(wù)上達(dá)到了業(yè)內(nèi)最佳水平，還可以根據(jù)一小段話自動(dòng)腦補(bǔ)出大段連貫的文本，如有需要，人們可以通過(guò)一些調(diào)整讓計(jì)算機(jī)模擬不同的寫(xiě)作風(fēng)格。

然而這個(gè)NLP 除了做閱讀理解、問(wèn)答、生成文章摘要、翻譯之外，還能用來(lái)干嘛？好奇心很強(qiáng)的網(wǎng)友便拿OpenAI 的 GPT-2 做了個(gè)實(shí)驗(yàn)。它除了能生成文本，竟然還能下象棋、做音樂(lè)！

僅僅經(jīng)過(guò)一個(gè)小時(shí)的訓(xùn)練，GPT-2 1.5B 模型就表現(xiàn)出了國(guó)際象棋“天賦”。雖然在下了幾步棋之后，就會(huì)出現(xiàn)無(wú)效移動(dòng)，但這次實(shí)驗(yàn)還是證明了制造 GPT-2 國(guó)際象棋引擎并非不可能。

GPT-2 介紹

2018 年 6 月，OpenAI 發(fā)表論文介紹了自己的語(yǔ)言模型 GPT，它基于 Transformer 架構(gòu)，用先在大規(guī)模語(yǔ)料上進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練、再在小得多的有監(jiān)督數(shù)據(jù)集上為具體任務(wù)進(jìn)行精細(xì)調(diào)節(jié)（fine-tune）的方式，不依賴(lài)針對(duì)單獨(dú)任務(wù)的模型設(shè)計(jì)技巧就一次性在多個(gè)任務(wù)中取得了很好的表現(xiàn)。

這也是 2018 年中自然語(yǔ)言處理領(lǐng)域的研究趨勢(shì)，就像計(jì)算機(jī)視覺(jué)領(lǐng)域流行 ImageNet 預(yù)訓(xùn)練模型一樣。這次的 GPT-2 是 GPT 的直接技術(shù)升級(jí)版本，有多 10 倍的模型參數(shù)，多達(dá) 15 億個(gè)，并在多 10 倍的數(shù)據(jù)上進(jìn)行訓(xùn)練。

訓(xùn)練數(shù)據(jù)是來(lái)自互聯(lián)網(wǎng)的 40GB 高質(zhì)量語(yǔ)料，具體來(lái)說(shuō)這些語(yǔ)料來(lái)自 Reddit 論壇中出現(xiàn)的高評(píng)分外鏈頁(yè)面；高評(píng)分表示這些頁(yè)面中的內(nèi)容有較高的質(zhì)量。這樣篩選出的語(yǔ)料內(nèi)容多達(dá) 800 萬(wàn)個(gè)頁(yè)面。模型在無(wú)監(jiān)督訓(xùn)練階段的目標(biāo)是，給定一組單詞組成的句子之后預(yù)測(cè)下文的下一個(gè)詞。

由于數(shù)據(jù)庫(kù)有足夠高的文本質(zhì)量和足夠高的多樣性，模型也有很高的容量，即便這樣簡(jiǎn)單的訓(xùn)練目標(biāo)也得出了驚人的結(jié)果：模型不僅可以根據(jù)給定的文本流暢地續(xù)寫(xiě)句子，甚至可以形成成篇的文章，就像人類(lèi)的續(xù)寫(xiě)文章一樣。

模型生成文本有時(shí)會(huì)出現(xiàn)失敗的現(xiàn)象，比如文字重復(fù)、錯(cuò)誤的世界常識(shí)（比如有時(shí)候模型會(huì)寫(xiě)到在水下燃燒的火）、不自然地切換話題，但在成功的例子中，模型生成的文本有多樣、全面的敘述，對(duì)事件的介紹煞有介事，接近人類(lèi)的表達(dá)質(zhì)量，而且在段落之間甚至全篇文章之中保持連續(xù)一致。

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作
ai

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

美兩黨參議員敦促政府加倍資助AI和量子信息技術(shù)

美國(guó)總統(tǒng)唐納德·特朗普上臺(tái)以來(lái)，一直提議大幅削減一些聯(lián)邦機(jī)構(gòu)對(duì)基礎(chǔ)研究的資助費(fèi)用。但據(jù)美國(guó)《科學(xué)》雜志網(wǎng)站近日?qǐng)?bào)道，一個(gè)由兩黨參議員組成的團(tuán)體上周提交了《未來(lái)產(chǎn)業(yè)法案》，敦促特朗普政府加倍資...

業(yè)界

罰款1億美元只是開(kāi)始歐盟還想定義AI"高風(fēng)險(xiǎn)領(lǐng)域"

1月20日，DLA Piper律師事務(wù)所就歐盟數(shù)據(jù)保護(hù)狀況發(fā)布報(bào)告。報(bào)告顯示，自2018年《一般數(shù)據(jù)保護(hù)條例》(GDPR) 發(fā)布以來(lái)，歐盟已經(jīng)收了1.14億歐元（約合1.26億美元）的罰款。然而對(duì)歐盟來(lái)說(shuō)，這一切還僅僅是...

業(yè)界

亞馬遜AWS擬用AI幫助NASA預(yù)測(cè)超級(jí)太陽(yáng)風(fēng)暴

1月20日消息，據(jù)外媒報(bào)道，美國(guó)宇航局（NASA）正與亞馬遜云計(jì)算服務(wù)部門(mén)AWS和亞馬遜機(jī)器學(xué)習(xí)解決方案實(shí)驗(yàn)室合作一個(gè)項(xiàng)目，旨在借助人工智能（AI）為超級(jí)太陽(yáng)風(fēng)暴的爆發(fā)提供早期預(yù)警。

業(yè)界

谷歌CEO皮查伊：AI必須受到監(jiān)管不能放任市場(chǎng)操縱

1月20日消息，據(jù)外媒報(bào)道，人工智能（AI）已成為當(dāng)今科技領(lǐng)域的核心力量之一，正融入到社會(huì)的方方面面。但在給我們帶來(lái)更多便利的同時(shí)，AI的負(fù)面效應(yīng)也逐漸顯現(xiàn)出來(lái)。

業(yè)界

谷歌CEO皮查伊：AI必須受到監(jiān)管不能任由市場(chǎng)放縱

1月20日消息，據(jù)外媒報(bào)道，谷歌及其母公司Alphabet首席執(zhí)行官桑達(dá)爾·皮查伊（Sundar Pichai）日前親自撰文，聲稱(chēng)人工智能（AI）太過(guò)重要，必須受到監(jiān)管，人們非常擔(dān)心AI造成的潛在負(fù)面后果。

業(yè)界

最新文章

聽(tīng)快播前員工爆料：騰訊為什么對(duì)快播痛

預(yù)測(cè)：2015年互聯(lián)網(wǎng)10大引爆點(diǎn)

現(xiàn)狀不妙，董小姐頻繁炮轟小米為哪般？

蘋(píng)果手表誕生后國(guó)外科技段子手們都瘋

HTC One M9緊急跳票，將延期在臺(tái)發(fā)售

相關(guān)推薦

“特斯拉又割了我 7 萬(wàn)塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒(méi)跑了！

iPhone 13機(jī)模曝光：值得等！

蘋(píng)果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車(chē)電池

男人网站,国产精品对白刺激久久久,性XXXX欧美老妇506070,哦┅┅快┅┅用力啊┅┅在线观看

從麻將到“農(nóng)藥” 細(xì)數(shù) AI 攻占的游戲領(lǐng)域

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬(wàn)塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒(méi)跑了！

iPhone 13機(jī)模曝光：值得等！

蘋(píng)果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車(chē)電池

關(guān)注我們

男人网站,国产精品对白刺激久久久,性XXXX欧美老妇506070,哦┅┅快┅┅用力啊┅┅在线观看

從麻將到“農(nóng)藥” 細(xì)數(shù) AI 攻占的游戲領(lǐng)域

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬(wàn)塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒(méi)跑了！

iPhone 13機(jī)模曝光：值得等！

蘋(píng)果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車(chē)電池

關(guān)注我們

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒(méi)跑了！

iPhone 13機(jī)模曝光：值得等！