在很多競技射擊游戲中,你都能看到一種名為「奪旗模式」的玩法。它源于西方一項(xiàng)傳統(tǒng)運(yùn)動,玩家被組成兩支小隊(duì),目標(biāo)是把對方基地里的旗幟帶回到自己基地中,同時(shí)也要保護(hù)自家旗子不被人搶走。
規(guī)則看似很簡單,可比起強(qiáng)調(diào)擊殺得分的玩法,奪旗模式對于團(tuán)隊(duì)配合和戰(zhàn)術(shù)執(zhí)行也會更高,這往往需要幾名玩家在進(jìn)攻和防守之間取得一個(gè)平衡點(diǎn)。
▲ 圖片來自:DeepMind
但這依舊沒有難倒開發(fā)出 AlphaGo 的 DeepMind 實(shí)驗(yàn)室。據(jù) Arstechnica 報(bào)道,在本周四的《Science》雜志上,該公司發(fā)表了一篇新的論文,稱新設(shè)計(jì)出來的 AI 程序已經(jīng)能在《雷神之錘 3》游戲里展現(xiàn)出和人類一樣的行動方式,還能在奪旗模式中戰(zhàn)勝人類隊(duì)伍。
這也是繼《星際爭霸 2》和《Dota 2》后,DeepMind 攻破的又一款復(fù)雜競技游戲。
想要讓 AI 玩好競技射擊類游戲,難點(diǎn)是什么?
在《AlphaGo》電影中,DeepMind 創(chuàng)始人 Demis Hassabis 曾簡單描述了讓 AI 理解圍棋玩法的難點(diǎn)。
他說,相比于西洋棋,圍棋里的每顆棋子都擁有更多可以走的路徑選擇,最終整個(gè)棋局可變化的數(shù)目,要比全宇宙的原子總數(shù)還要多。
而 DeepMind 實(shí)驗(yàn)室的挑戰(zhàn),就在于去發(fā)明一種可以效仿人類直覺的高級算法,最終讓它們能夠像人類一樣進(jìn)行決策,展開行動。
換成是第一人稱射擊游戲中的奪旗模式,AI 還需要有更快的實(shí)時(shí)決策能力,比如思考在什么時(shí)間點(diǎn)做什么事是正確的?如果兩隊(duì)的分差較大,又該如何協(xié)調(diào)身邊的隊(duì)友,采取什么策略才能扳回比分?
為了解決這個(gè)問題,DeepMind 實(shí)驗(yàn)室建立了一套新的雙層學(xué)習(xí)系統(tǒng)。
在內(nèi)層,DeepMind 會讓 AI 專注于競技比賽的核心目標(biāo),也就是贏得勝利,基于這個(gè)點(diǎn),AI 會再為整個(gè)游戲建立數(shù)個(gè)次級目標(biāo),由此來尋求取勝的最短路徑,比如跟隨隊(duì)友,或是在敵人的基地附近游走。
這里有一些具象化的東西,比如在訓(xùn)練過程中,DeepMind 團(tuán)隊(duì)采取了「優(yōu)勝劣汰」的流程,讓 AI 將每一輪模擬賽里表現(xiàn)最差的方案淘汰掉,然后再把最優(yōu)秀方案中的突出部分共享出來,反復(fù)改進(jìn)整個(gè)決策樹。
而外層部分,則會根據(jù)內(nèi)層的決策情況來調(diào)整其它模塊。比如說當(dāng)內(nèi)層認(rèn)為防守戰(zhàn)術(shù)是現(xiàn)在最好的選擇,外層就會提升 AI 對于四周環(huán)境的視覺感知能力,這樣當(dāng)敵人靠近基地時(shí),AI 便能更快地實(shí)現(xiàn)射殺。
這么看下來,DeepMind 開發(fā)的這套 AI 還是和人類很相似的,它的內(nèi)層就像是人類的「大腦」,主要負(fù)責(zé)戰(zhàn)術(shù)策略;而外層則可以當(dāng)作人類的「眼睛和雙手」,負(fù)責(zé)執(zhí)行環(huán)節(jié)。
確定模型后,接下來就是一遍又一遍的訓(xùn)練了。這次 DeepMind 團(tuán)隊(duì)投入了約三周時(shí)間,讓 AI 進(jìn)行了 45 萬局游戲,相當(dāng)于人類玩家耗費(fèi) 4 年時(shí)間積累的游戲經(jīng)驗(yàn),效率依舊驚人。
在進(jìn)行到約 10 萬場訓(xùn)練時(shí),AI 隊(duì)伍已經(jīng)達(dá)到普通人類玩家的水平;而在 20 萬局訓(xùn)練后,AI 隊(duì)伍已經(jīng)能擊敗職業(yè)玩家,而且優(yōu)勢還在逐漸擴(kuò)大。
另外,研究人員還在訓(xùn)練期間發(fā)現(xiàn)了一些額外的驚喜。比如 AI 會從神經(jīng)網(wǎng)絡(luò)分出一部分神經(jīng)元,專門用于確認(rèn)身邊隊(duì)友是否拿到的旗子。
團(tuán)隊(duì)還使用了隨機(jī)生成的地圖場景,為的就是不讓 AI 靠背板地圖來取勝。
AI 之所以強(qiáng),不僅因?yàn)閼?zhàn)術(shù),還有騷操作
AI 在游戲中戰(zhàn)勝人類,靠的是什么?DeepMind 曾表示,這是基于強(qiáng)化學(xué)習(xí)算法下的策略。
但也有不少人認(rèn)為,AI 在競技游戲中的真正優(yōu)勢是超高的手速和操作效率,而且很多都是人類玩家無法做到的。
原因很簡單,我們玩電腦游戲時(shí)需要用到鼠標(biāo)、鍵盤和手柄,我們要做出一項(xiàng)操作,都得先讓大腦意識反饋到手指上,然后再傳到游戲中。
但人類選手們面對的 AI 并不是機(jī)器人,它們沒有實(shí)體,所以下達(dá)指令時(shí)并不需要借助手柄等交互工具,這等于是砍掉了中間流程,自然是能獲得雙倍效率。
▲ 圖片來自:The Verge
這在實(shí)際游戲中也有所體現(xiàn)。在今年年初的《星際爭霸》AI 對抗賽中,職業(yè)選手每分鐘的平均操作數(shù)為 250-500 左右,而 AI 則可以飆到 1000+,且大部分都是有效操作,意味著它可以在極短時(shí)間內(nèi)下達(dá)更多的復(fù)雜指令。
而本次《雷神之錘 3》比賽中,據(jù)統(tǒng)計(jì),人類的反應(yīng)時(shí)間只有 AI 的一半,且后者的射擊精確度可以達(dá)到 80%,而人類只有 50%。
之后,哪怕是 DeepMind 稱已經(jīng)將 AI 的響應(yīng)時(shí)間調(diào)整至和人類相似的水平,人類戰(zhàn)隊(duì)依舊只能保證約 30% 左右的勝率,證明在戰(zhàn)術(shù)執(zhí)行和決策部分,AI 依舊擁有一定的優(yōu)勢。
這其實(shí)也是沒辦法的事情,單從訓(xùn)練量來說,DeepMind 的 AI 在兩周時(shí)間內(nèi)玩的局?jǐn)?shù),相積累了大約 200 年的游戲時(shí)間。
難怪也有人評價(jià),這種比賽毫無意義,因?yàn)?AI 本身就是外掛般的存在。
但人類也并非毫無優(yōu)勢,比如在射擊游戲中的遠(yuǎn)距離狙擊場景,職業(yè)玩家會展現(xiàn)出更好的視覺能力。
所幸,我們暫時(shí)不用擔(dān)心在游戲中碰到這么強(qiáng)的 AI 對手。畢竟從游戲開發(fā)的角度說,如果 AI 太聰明,看破了你的一切招數(shù),玩家會心生明顯的受挫感,玩游戲就直接變成了一件找虐的事情,游戲估計(jì)就賣不出去了。
此外,比起游戲,我們在現(xiàn)實(shí)世界中還有很多值得 AI 投入的領(lǐng)域,《紐約時(shí)報(bào)》就發(fā)表評論認(rèn)為,這些 AI 技能可以運(yùn)用在倉儲管理機(jī)器人上,還有自動駕駛系統(tǒng)等。
在 DeepMind 眼中,電子游戲僅僅是一塊敲門磚,AI 真正需要掌握的是獨(dú)立理解一個(gè)世界的能力,以及達(dá)成目標(biāo)的手段,那么就算換成是現(xiàn)實(shí)世界,它也可以很好地幫助人類。
【來源:愛范兒】