DeepMind官博詳解AI打星際爭(zhēng)霸:靠戰(zhàn)略水平而非手速

人工智能

2019

01/26

23:05

新浪科技

評(píng)論

北京時(shí)間今日凌晨，谷歌母公司Alphabet旗下人工智能公司DeepMind與暴雪聯(lián)合直播最新AI程序“AlphaStar”與《星際爭(zhēng)霸2》職業(yè)選手比賽實(shí)況錄像，并讓AlphaStar和人類選手現(xiàn)場(chǎng)進(jìn)行一盤比賽。AlphaStar在實(shí)況錄像中的10場(chǎng)均獲勝，而在與人類選手現(xiàn)場(chǎng)比賽時(shí)不敵人類，因此最終總成績(jī)定格在10-1。

在直播開始之際，DeepMind在官方博客上詳細(xì)解釋了打造AlphaStar的全過(guò)程。DeepMind團(tuán)隊(duì)認(rèn)為，盡管《星際爭(zhēng)霸》只是一款游戲，但不失為一款較為復(fù)雜的游戲。AlphaStar背后的技術(shù)可以用來(lái)解決其他的問(wèn)題。在天氣預(yù)報(bào)、氣候建模、語(yǔ)言理解等等領(lǐng)域，以及研究開發(fā)安全穩(wěn)定的人工智能方面，都會(huì)有很大幫助。

以下為DeepMind文章主要內(nèi)容：

在過(guò)去幾十年里，人類一直用游戲測(cè)試評(píng)估AI系統(tǒng)。隨著技術(shù)的進(jìn)步，科學(xué)界尋找復(fù)雜的游戲，深入研究智力的方方面面，看看如何才能解決科學(xué)問(wèn)題和現(xiàn)實(shí)問(wèn)題。許多人認(rèn)為，《星際爭(zhēng)霸》是最有挑戰(zhàn)的RTS（實(shí)時(shí)戰(zhàn)略）游戲之一，也是有史以來(lái)電子競(jìng)技領(lǐng)域最古老的游戲之一，它是AI研究的“大挑戰(zhàn)”。

現(xiàn)在我們推出一個(gè)可以操作《星際爭(zhēng)霸2》游戲的程序，名叫AlphaStar，它是一個(gè)AI系統(tǒng)，成功打敗了世界頂級(jí)職業(yè)玩家。12月19日，我們舉行了測(cè)試比賽，AlphaStar打敗了Team Liquid戰(zhàn)隊(duì)的Grzegorz "MaNa" Komincz，他是世界最強(qiáng)的職業(yè)玩家之一，以5比0獲勝，之前AlphaStar已經(jīng)打敗同隊(duì)的Dario “TLO” Wünsch。比賽是按照職業(yè)標(biāo)準(zhǔn)進(jìn)行的，使用天梯地圖，沒(méi)有任何游戲限制。

在游戲領(lǐng)域，我們已經(jīng)取得一系列成功，比如Atari、Mario、《雷神之錘3：競(jìng)技場(chǎng)》多人奪旗、Dota 2。但是AI技術(shù)還是無(wú)法應(yīng)付復(fù)雜的《星際爭(zhēng)霸》。想拿到好結(jié)果，要么是對(duì)游戲系統(tǒng)進(jìn)行重大調(diào)整，對(duì)游戲規(guī)則進(jìn)行限制，賦予系統(tǒng)超人一般的能力，或者讓它玩一些簡(jiǎn)單地圖。即使做了修改，也沒(méi)有系統(tǒng)可以與職業(yè)玩家一較高下。AlphaStar不一樣，它玩的是完整版《星際爭(zhēng)霸2》，用深度神經(jīng)網(wǎng)絡(luò)操作，網(wǎng)絡(luò)已經(jīng)用原始游戲數(shù)據(jù)訓(xùn)練過(guò)，通過(guò)監(jiān)督式學(xué)習(xí)和強(qiáng)化式學(xué)習(xí)來(lái)訓(xùn)練。

《星際爭(zhēng)霸》游戲的挑戰(zhàn)

《星際爭(zhēng)霸2》由暴雪娛樂(lè)制作，是一款單位眾多的多層次宇宙科幻游戲，在設(shè)計(jì)上非常挑戰(zhàn)人工智能。與前作一樣，《星際爭(zhēng)霸2》也是游戲史上最宏大和成功的游戲，已有20余年的電競(jìng)聯(lián)賽歷史。

該游戲玩法眾多，但電競(jìng)中最常見(jiàn)的是1對(duì)1對(duì)戰(zhàn)，五局三勝制。開始時(shí)，玩家從人類、星靈和異蟲三個(gè)種族中人選一個(gè)進(jìn)行操作，每個(gè)種族都有獨(dú)特的特點(diǎn)、能力（機(jī)關(guān)專業(yè)選手會(huì)專注于一個(gè)種族）。開局時(shí)，每個(gè)玩家都有一些“農(nóng)民”來(lái)采集資源和建造建筑，解鎖新科技。這也讓玩家可以收集新的資源，建造更復(fù)雜的基地和建筑，研發(fā)新科技以勝過(guò)對(duì)手。要取得勝利，玩家必須仔細(xì)平衡宏觀經(jīng)濟(jì)管理，即宏觀經(jīng)濟(jì)，和每個(gè)單位的控制，即微操。

這就需要平衡短期和長(zhǎng)期目標(biāo)，還要應(yīng)對(duì)意外情況，整個(gè)系統(tǒng)因而經(jīng)常變得脆弱僵硬。處理這些問(wèn)題需要在下列若干人工智能領(lǐng)域解決挑戰(zhàn)，取得突破：

- 游戲理論：《星際爭(zhēng)霸》是個(gè)游戲，就想剪刀石頭布一樣，沒(méi)有單一最佳戰(zhàn)略。因此人工智能訓(xùn)練過(guò)程中需不斷探索和擴(kuò)展最戰(zhàn)略知識(shí)前沿。

- 瑕疵信息：不同于國(guó)際象棋或圍棋那種一覽無(wú)余的狀態(tài)，星際玩家無(wú)法直接觀察到重要信息，必須積極探索“探路”。

- 長(zhǎng)期規(guī)劃：和許多現(xiàn)實(shí)世界中的問(wèn)題并非是從“因”立即生“果”一樣，游戲是可以從任何一個(gè)地方開始，需要1個(gè)小時(shí)時(shí)間出結(jié)果，這意味著在游戲開始時(shí)的行動(dòng)可能在很長(zhǎng)一段時(shí)間不會(huì)有收效。

- 即時(shí)性：不像傳統(tǒng)桌面游戲，玩家輪流行動(dòng)，星際玩家必須在游戲時(shí)間內(nèi)持續(xù)排兵布陣。

- 龐大的行動(dòng)空間：要同時(shí)控制上百個(gè)單位及建筑，這就導(dǎo)致了大量的可能性，行動(dòng)是分級(jí)別的，可以被修改和擴(kuò)張。我們將游戲參數(shù)化后，每個(gè)時(shí)間步驟平均約有10到26個(gè)合理行為。

由于上述的大量挑戰(zhàn)，《星際爭(zhēng)霸》成為了人工智能研究中的“大挑戰(zhàn)”。自從2009年《母巢之戰(zhàn)》應(yīng)用參數(shù)界面問(wèn)世后，圍繞《星際爭(zhēng)霸》和《星際爭(zhēng)霸2》開展了眾多人工智能競(jìng)賽。

　　AlphaStar與MaNa的第二場(chǎng)比賽可視化動(dòng)圖。人工智能的視角，原始觀測(cè)輸入神經(jīng)網(wǎng)絡(luò)，神經(jīng)網(wǎng)絡(luò)內(nèi)部活動(dòng)，一些人工智能考慮可采取的行動(dòng)，如單擊哪里或在哪里建造，以及預(yù)測(cè)結(jié)果。MaNa的視角也在其中，但人工智能看不見(jiàn)他的視角。

AlphaStar如何觀察游戲以及玩游戲的

職業(yè)玩家TLO和MaNa的APM可以達(dá)到數(shù)百，現(xiàn)有機(jī)器人高出很多，它們可以獨(dú)立控制每一個(gè)單位，持續(xù)維持幾千甚至幾萬(wàn)的APM。

對(duì)決TLO和MaNa時(shí)，AlphaStar的平均APM約為280，比職業(yè)玩家低，但它的動(dòng)作更精準(zhǔn)一些。為什么APM會(huì)低一些？主要是因?yàn)锳lphaStar是用錄像訓(xùn)練的，因此它會(huì)模擬人類玩法。還有，AlphaStar在觀察和行動(dòng)之間平均會(huì)有350ms的延遲。

AlphaStar在APM和延遲方面與人類玩家的比較

對(duì)決時(shí)，AlphaStar借助原始界面與《星際爭(zhēng)霸》游戲引擎交流，也就是說(shuō)，它可以直接觀察地圖上的我方單位和敵方可見(jiàn)單位，不需要移動(dòng)攝像頭。如果是人類玩家，注意力有限，必須調(diào)整攝像頭，讓它瞄準(zhǔn)應(yīng)該關(guān)注的地方。分析AlphaStar游戲能發(fā)現(xiàn)，它有一個(gè)隱藏的注意力焦點(diǎn)。平均來(lái)說(shuō)，游戲代理每分鐘會(huì)切換環(huán)境約30次，和MaNa、TLO的頻率差不多。

比賽之后，我們開發(fā)了第二版AlphaStar。和人類玩家一樣，這個(gè)版本的AlphaStar需要確定何時(shí)移動(dòng)攝像頭，應(yīng)該瞄準(zhǔn)哪里，對(duì)于屏幕信息，AI的感知受到限制，動(dòng)作位置也受到可視區(qū)域的限制。

AlphaStar在使用原始界面和控制攝像頭時(shí)，其MMR數(shù)據(jù)比較 AlphaStar在使用原始界面和控制攝像頭時(shí)，其MMR數(shù)據(jù)比較

我們訓(xùn)練了兩個(gè)代理，一個(gè)使用原始界面，一個(gè)學(xué)著控制攝像頭。兩個(gè)代理最開始時(shí)都用人類數(shù)據(jù)進(jìn)行監(jiān)督式和增強(qiáng)式訓(xùn)練。使用攝像頭界面的AlphaStar幾乎和使用原始界面的AlphaStar一樣強(qiáng)大，在內(nèi)部排行榜上達(dá)到7000 MMR（天梯積分）。在演示比賽中，MaNa用攝像頭界面打敗了原型版AlphaStar，但它只訓(xùn)練了7天。我們希望能在近期內(nèi)評(píng)估精煉的攝像頭界面AlphaStar。

事實(shí)證明，AlphaStar與MaNa和TLO對(duì)決時(shí)之所以占據(jù)上風(fēng)，主要是因?yàn)樗暮暧^戰(zhàn)略、微觀戰(zhàn)略決策能力更強(qiáng)，靠的不是超級(jí)點(diǎn)擊率、超快響應(yīng)時(shí)間、原始界面。

AlphaStar與職業(yè)玩家的較量

《星際爭(zhēng)霸》這款游戲包含三大外星種族：人類、星靈和異蟲。玩家可以從中選擇一個(gè)族類開始游戲。目前，我們僅針對(duì)星靈一族對(duì)AlphaStar進(jìn)行了訓(xùn)練，以減少訓(xùn)練時(shí)間和差異。值得一提的是，相同的訓(xùn)練模式可以也應(yīng)用到其他兩個(gè)種族的訓(xùn)練上。經(jīng)過(guò)訓(xùn)練的代理可以在《星際爭(zhēng)霸2》（v4.6.2）的CatalystLE天梯地圖中，實(shí)現(xiàn)星靈族與星靈族的較量。

為評(píng)估AlphaStar的表現(xiàn)，團(tuán)隊(duì)最初測(cè)試了代理對(duì)弈玩家TLO（一位頂級(jí)職業(yè)異蟲玩家和大師級(jí)星靈玩家）的表現(xiàn)。AlphaStar以5:0的戰(zhàn)績(jī)獲勝，對(duì)弈過(guò)程中AlphaStar靈活使用了大量單位和建造命令。

“代理的強(qiáng)大水平令我驚訝，”TLO表示，“AlphaStar將眾所周知的策略融會(huì)貫通。代理運(yùn)用的策略，也是我之前從未想到過(guò)的。也就是說(shuō)對(duì)于這個(gè)游戲，我們或許還有很多玩法沒(méi)有探索出來(lái)。”

對(duì)我們的代理繼續(xù)訓(xùn)練了一周之后，我們讓代理與另一名玩家MaNa進(jìn)行較量。MaNa不僅是世界頂級(jí)的《星際爭(zhēng)霸2》玩家，也是排名前十的最擅長(zhǎng)使用星靈族的玩家之一。AlphaStar再次以5:0的戰(zhàn)績(jī)獲勝，體現(xiàn)了強(qiáng)大的微觀和宏觀策略技能。

“AlphaStar在每局游戲中采用的操作和不同策略十分令人印象深刻，近乎人類選手般的游戲策略出乎我的意料，”MaNa說(shuō)，“我這才意識(shí)到，自己之前的策略過(guò)分依賴失誤和人類反應(yīng)力，因此這場(chǎng)比賽讓我對(duì)游戲有了全新的認(rèn)識(shí)。我們很期待未來(lái)的無(wú)限可能。”

AlphaStar和其他復(fù)雜問(wèn)題

盡管《星際爭(zhēng)霸》只是一款游戲，但不失為一款較為復(fù)雜的游戲。我們認(rèn)為，AlphaStar背后的技術(shù)可以用來(lái)解決其他的問(wèn)題。比如，它的神經(jīng)網(wǎng)絡(luò)架構(gòu)可以基于不完美的信息，對(duì)長(zhǎng)時(shí)間序列中的可能行為進(jìn)行建模——因?yàn)橐痪钟螒蛲ǔｉL(zhǎng)達(dá)1個(gè)多小時(shí)且涉及成千上萬(wàn)次動(dòng)作?！缎请H爭(zhēng)霸》的每一幀都是輸入的一個(gè)動(dòng)作，神經(jīng)網(wǎng)絡(luò)在每一幀動(dòng)作之后都會(huì)對(duì)接下來(lái)的游戲發(fā)展進(jìn)行預(yù)測(cè)。根據(jù)較長(zhǎng)的數(shù)據(jù)序列進(jìn)行復(fù)雜的預(yù)測(cè)，是很多現(xiàn)實(shí)世界挑戰(zhàn)中的基本問(wèn)題，比如天氣預(yù)報(bào)、氣候建模、語(yǔ)言理解等等。AlphaStar項(xiàng)目的學(xué)習(xí)和發(fā)展對(duì)幫助這些領(lǐng)域取得顯著進(jìn)展的可能性，值得期待。

我們還認(rèn)為，團(tuán)隊(duì)的一些訓(xùn)練方法或可有助于研究開發(fā)安全穩(wěn)定的人工智能。人工智能的一大挑戰(zhàn)是，系統(tǒng)出錯(cuò)的方式各種各樣。先前，《星際爭(zhēng)霸》的職業(yè)玩家可以通過(guò)各種新穎方式誘導(dǎo)代理失誤，輕易擊敗AI系統(tǒng)。AlphaStar采用的基于league模式的創(chuàng)新訓(xùn)練方式，可以找到最可靠、最不容易出錯(cuò)的方式。這一創(chuàng)新方式對(duì)改進(jìn)整體AI系統(tǒng)（尤其是在諸如能源等安全至上、且解決復(fù)雜邊緣案例十分關(guān)鍵的領(lǐng)域）的安全性和穩(wěn)定性的前景亦值得期待。

實(shí)現(xiàn)最高水平的《星際爭(zhēng)霸》對(duì)弈代表了人工智能在有史以來(lái)最復(fù)雜電子游戲中取得的重大突破。我們相信，這些進(jìn)展，以及AlphaZero和AlphaFold等項(xiàng)目的其他進(jìn)展，代表著我們?cè)趧?chuàng)建人工智能系統(tǒng)之路上的又一大前進(jìn)。未來(lái)終有一日，智能系統(tǒng)將幫助人類解鎖解決世界上一些最重要、最基本之科學(xué)問(wèn)題的創(chuàng)新方式。

【來(lái)源：新浪科技】

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

男人网站,国产精品对白刺激久久久,性XXXX欧美老妇506070,哦┅┅快┅┅用力啊┅┅在线观看

DeepMind官博詳解AI打星際爭(zhēng)霸:靠戰(zhàn)略水平而非手速

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬(wàn)塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒(méi)跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車電池

關(guān)注我們

男人网站,国产精品对白刺激久久久,性XXXX欧美老妇506070,哦┅┅快┅┅用力啊┅┅在线观看

DeepMind官博詳解AI打星際爭(zhēng)霸:靠戰(zhàn)略水平 而非手速

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬(wàn)塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒(méi)跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車電池

關(guān)注我們

DeepMind官博詳解AI打星際爭(zhēng)霸:靠戰(zhàn)略水平而非手速

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒(méi)跑了！

iPhone 13機(jī)模曝光：值得等！