文丨鋅財(cái)經(jīng),作者丨陳伊婷,編輯丨大風(fēng)
DeepMind 推出最新泛用型游戲 XLand,冷不丁丟出一個(gè)重磅炸彈。這意味著,在零樣本且不需要事先知道規(guī)則的情況下,就可以打造出一個(gè)全新的、堪比 AlphaGo 的人工智能。
一直以來,AI 強(qiáng)化學(xué)習(xí)苦于泛化能力差,只能針對單個(gè)任務(wù)來從頭開始學(xué)習(xí)。
5 年前,AlphaGo 打敗世界圍棋冠軍李世石,舉世驚呼。自 AlphaGo 之后,Deepmind 又推出能通學(xué)西洋棋、將棋、圍棋的 AlphaZero。
AlphaZero 非常強(qiáng)大,在三大棋領(lǐng)域中「打遍天下無敵手」。但問題在于,AlphaZero 若想能夠在不同游戲中「稱霸天下」,還得在每個(gè)游戲「從零訓(xùn)練」后才能夠?qū)崿F(xiàn)。
XLand 的出現(xiàn)則彌補(bǔ)了這個(gè)缺陷。如果說 AlphaZero 是「下棋的手」,那么 XLand 則創(chuàng)造出了「一個(gè)人」。
它的強(qiáng)大之處,在于它高度泛化的能力。簡單的說就是觸類旁通,好比人類學(xué)會用筷子夾米飯,就能學(xué)會用筷子夾菜。而 DeepMind 打造 XLand 的目的,則是為了讓自家通過強(qiáng)化學(xué)習(xí)訓(xùn)練的 AI,能夠玩遍「全宇宙的游戲」。
這個(gè)世界的任務(wù)由游戲、世界、玩家構(gòu)成。根據(jù)三要素的不同關(guān)系,來決定任務(wù)的復(fù)雜度。復(fù)雜度則由競爭性,平衡性,可選項(xiàng),探索難度這 4 個(gè)維度評判。
從簡單到復(fù)雜的游戲,AI 智能體通過第一人稱視角去感知游戲中環(huán)境,并且不斷嘗試、碰撞游戲規(guī)則,從中累積龐大數(shù)據(jù)來訓(xùn)練自己完成游戲目標(biāo)。
簡單的比如「靠近紫色立方體」,復(fù)雜一點(diǎn)的比如「靠近紫色立方體或?qū)ⅫS色球體放在紅色地板上」。長此以往,AI 智能體從新手小白成長為屠龍勇士,吃雞、捉迷藏都難不倒它們。
基于此,一個(gè)由任務(wù)空間組成的、超大規(guī)模的「元宇宙」XLand 就誕生了,幾何地球只是其中的一個(gè)小角落。我們或許可以提出這樣一個(gè)設(shè)想,人類是外星人創(chuàng)造的 AI,而地球是外星人創(chuàng)造的 XLand。
經(jīng)過 5 代訓(xùn)練,AI 智能體在 XLand 的 4000 個(gè)獨(dú)立世界中玩大約 70 萬個(gè)獨(dú)立游戲,涉及 340 萬個(gè)獨(dú)立任務(wù)的結(jié)果,最后一代的每個(gè)智能體都經(jīng)歷了 2000 億次訓(xùn)練步驟。
目前,AI 智能體已經(jīng)能夠順利參與幾乎每個(gè)評估任務(wù),除了少數(shù)連人類也無法完成的任務(wù)。
從 AlphaGo 走到現(xiàn)在 XLand,DeepMind 展示了無監(jiān)督式機(jī)器學(xué)習(xí)的高度潛力,也向世界證明未來訓(xùn)練 AI 的成本跟門檻將會越來越低,直至普及全球。
未來的某一天,當(dāng) AI 也能夠在「元宇宙」中自己學(xué)習(xí)演化,賽博朋克的世界是否會真的到來?