1997 年," 深藍(lán) " 在國(guó)際象棋上擊敗人類冠軍卡斯帕羅夫的時(shí)候,人們說來一盤圍棋啊,結(jié)果有了 AlphaGo 橫掃人類頂尖高手李世石、柯潔。這時(shí)候,有人說來一盤 " 星際 " 啊 ……
結(jié)果,還不到三年,《星際爭(zhēng)霸 2》又被 AI 拿下,而且人類輸?shù)脦缀躞w無完膚!
北京時(shí)間 1 月 25 日凌晨,Google DeepMind 的最新 AI 人工智能程序 "AlphaStar" 以兩個(gè) 5:0 連續(xù)血洗《星際爭(zhēng)霸 2》職業(yè)選手 TLO、MaNa,只是在隨后的一場(chǎng)表現(xiàn)賽中輸給了 MaNa。
其中,TLO 是 Liquid 戰(zhàn)隊(duì)的蟲族選手,目前世界排名第 68,MaNa 則是 2018 年 WSC 大賽的奧斯汀站亞軍,神族選手,世界排名第 19。
這次是 AlphaStar 首次公開亮相,比賽用的游戲版本是 4.6.2,只進(jìn)行神族內(nèi)戰(zhàn),固定在 Catalyst LE 地圖。
尤其令人稱奇的是,AlphaStar 與兩位人類對(duì)手的比賽相隔只有兩周,就迅速自學(xué)成才,對(duì)戰(zhàn) TLO 時(shí)雖然完勝但表現(xiàn)還相當(dāng)菜鳥,而對(duì)戰(zhàn) MaNa 的時(shí)候已經(jīng)有了幾乎的完美,非人類的操作讓人猝不及防。
DeepMind 科學(xué)家 Oriol Vinyals、David Silver 介紹說,AlphaStar 的訓(xùn)練首先是模仿學(xué)習(xí),訓(xùn)練大量的比賽回放資料,讓 AI 通過觀察一個(gè)人所處的環(huán)境,盡可能地模仿某個(gè)特定的動(dòng)作,從而理解游戲基本知識(shí)。
然后使用 "Alpha League" 循環(huán)比賽方法,先對(duì)比從人類數(shù)據(jù)中訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò),然后逐次迭代,產(chǎn)生新的 Agent 和分支,使其發(fā)展壯大。
接下來,這些 Agent 通過強(qiáng)化學(xué)習(xí)過程與 Alpha League 中的其他競(jìng)爭(zhēng)對(duì)手進(jìn)行比賽,盡可能有效地?fù)魯∷羞@些不同的策略,并調(diào)整個(gè)人學(xué)習(xí)目標(biāo),鼓勵(lì)競(jìng)爭(zhēng)對(duì)手朝特定方式演進(jìn),比如說獲得特定獎(jiǎng)勵(lì)。
最后在 Alpha League 中選擇最不容易被利用的 Agent,稱之為 "The nash of League",去挑戰(zhàn)人類。
至于為何選擇《星際爭(zhēng)霸 2》,主要是因?yàn)檫@款游戲具備策略性、競(jìng)爭(zhēng)性的特性,需要即時(shí)做出大量決策,是非常有趣和復(fù)雜的游戲,在全球都很火爆,每年都有大量的比賽,有著海量的玩家基礎(chǔ)。
【來源:驅(qū)動(dòng)之家】