男人网站,国产精品对白刺激久久久,性XXXX欧美老妇506070,哦┅┅快┅┅用力啊┅┅在线观看

從麻將到“農(nóng)藥” 細(xì)數(shù) AI 攻占的游戲領(lǐng)域

人工智能
2020
02/08
23:31
雷鋒網(wǎng)
分享
評(píng)論

出處:雷鋒網(wǎng)  作者:蔣寶尚

按照傳統(tǒng),過(guò)年需要走親訪友給長(zhǎng)輩拜年的。但是今年情況特殊,相信大家已經(jīng)不會(huì)走街串巷,舉行大型聚會(huì)了。

但親朋好友聚仍然可以“云聚會(huì)”聊家常、催你結(jié)婚。當(dāng)然線上搓兩把麻將也是不錯(cuò)的娛樂(lè)方式,畢竟這在促進(jìn)相互交流的同時(shí),還可以發(fā)揮你的聰明才智和運(yùn)氣。

但是要記住,你線上隨機(jī)匹配對(duì)戰(zhàn)的話,很容易被AI給“伏擊”了。因?yàn)檫@兩年除了圍棋、DOTA之外,AI已經(jīng)悄無(wú)聲息的攻占了些許游戲領(lǐng)域。下面就讓 雷鋒網(wǎng) 給大家梳理一下已經(jīng)被AI攻占的娛樂(lè)領(lǐng)域,也歡迎讀者文末留言補(bǔ)充。

AI麻將獲人類(lèi)頂級(jí)水平

2019年8月份微軟發(fā)布了他們?cè)诼閷⒂螒蛑腥〉玫闹卮笸黄疲郝閷I “Suphx”在國(guó)際知名專(zhuān)業(yè)麻將平臺(tái)“天鳳”上榮升十段。

“天鳳”是日本的一個(gè)在線麻將競(jìng)技平臺(tái),創(chuàng)立于2006年。天鳳平臺(tái)的“十段”水平意味著Suphx在麻將界擁有了等同于AlphaGo在圍棋界的地位。

Suphx在2019年3月份開(kāi)始登錄天鳳平臺(tái),經(jīng)過(guò)近三個(gè)多月、與人類(lèi)玩家展開(kāi)了5000余場(chǎng)四麻對(duì)局后,6月份Suphx成功晉級(jí)天鳳十段,也是首個(gè)晉級(jí)十段的AI系統(tǒng)。

從麻將到“農(nóng)藥” 細(xì)數(shù) AI 攻占的游戲領(lǐng)域

技術(shù)簡(jiǎn)介以及策略

136張麻將牌的排列組合可能性非常多,再加上打牌過(guò)程中4位玩家出牌的順序并不是固定的(例如碰杠等),導(dǎo)致游戲樹(shù)不僅不規(guī)則而且還是動(dòng)態(tài)變化。

這些特點(diǎn)使得麻將AI很難使用AlphaGo那樣的蒙特卡洛樹(shù)搜索算法。麻將中每個(gè)玩家除了手中的13張牌和已經(jīng)打出的牌外,其他玩家手中的牌和剩余的底牌都是未知的(最多可以有超過(guò)120張未知的牌),由于隱藏信息過(guò)多導(dǎo)致游戲樹(shù)的寬度非常大,樹(shù)搜索算法基本不可行。

對(duì)于日本麻將而言,一輪游戲共包含8局,最后根據(jù)8局得分總和進(jìn)行排名,來(lái)形成最終影響段位的點(diǎn)數(shù)獎(jiǎng)懲。所以AI需要審時(shí)度勢(shì),把握進(jìn)攻與防守的時(shí)機(jī)。

對(duì)麻將的這些特點(diǎn),研究者將整個(gè)訓(xùn)練過(guò)程分為三個(gè)階段。首先是“初始化”階段,本質(zhì)上就是用專(zhuān)家數(shù)據(jù)(天鳳平臺(tái)提供的一些公開(kāi)數(shù)據(jù))做有監(jiān)督學(xué)習(xí),得到一個(gè)初始模型。隨后在這個(gè)初始模型基礎(chǔ)上用自我博弈的方式進(jìn)行強(qiáng)化學(xué)習(xí)。

在這個(gè)階段,為了克服非完美信息博弈的問(wèn)題,研究者在訓(xùn)練階段利用不可見(jiàn)的一些隱藏信息來(lái)引導(dǎo)AI模型的訓(xùn)練方向。此外還利用“全盤(pán)預(yù)測(cè)”技術(shù)搭建起每輪比賽和8輪過(guò)后的終盤(pán)結(jié)果之間的橋梁。第三個(gè)階段則是在線比賽,通過(guò)不斷參與到與人類(lèi)玩家的對(duì)局中,從而不斷得到自我更新和提高。

AI 賭神升級(jí)6人局德?lián)渫陝偈澜绻谲?/strong>

2017年年初,在卡耐基梅隆大學(xué)(CMU)舉行了德州撲克人機(jī)大戰(zhàn),在比賽中4名人類(lèi)職業(yè)玩家組成的人類(lèi)大腦敗給了人工智能程序Libratus。

如果說(shuō)當(dāng)時(shí)Libratus擅長(zhǎng)的是1V1領(lǐng)域,那么2019年7月份的Pluribus在無(wú)限制德州撲克6人局里,戰(zhàn)勝了人類(lèi)頂尖選手。

從麻將到“農(nóng)藥” 細(xì)數(shù) AI 攻占的游戲領(lǐng)域

Pluribus由Facebook與CMU合作開(kāi)發(fā),相關(guān)論文發(fā)表在了《Sicence》上面。據(jù)《Superhuman AI for multiplayer poker》這篇論文介紹,Pluribus,每小時(shí)能贏1千刀且只用了8天的訓(xùn)練時(shí)間。

技術(shù)簡(jiǎn)介以及策略

根據(jù)論文介紹,整個(gè)AI的設(shè)計(jì)分為兩個(gè)階段,第一階段為藍(lán)圖策略,這一階段是為了降低游戲的復(fù)雜性,進(jìn)行游戲抽象。抽象分為兩個(gè)部分動(dòng)作抽象和信息抽象:動(dòng)作抽象減少了AI需要考慮的不同動(dòng)作的數(shù)量;信息抽象則是把策略上相似的牌局放在一起,并對(duì)其進(jìn)行相同處理。

當(dāng)然除了抽象之外,這部分所采用的算法是迭代的蒙特卡洛反事實(shí)遺憾最小化算法(MCCFR)。在算法的每次迭代中,MCCFR對(duì)玩家的某些行為或機(jī)會(huì)結(jié)果進(jìn)行采樣。在迭代結(jié)束時(shí),玩家策略會(huì)更新,然后對(duì)每個(gè)可能發(fā)生的情況進(jìn)行概率統(tǒng)計(jì),通過(guò)搜索決策樹(shù)來(lái)決定下一步的行為。

第二階段是深度限制搜索,這一階段Pluribus會(huì)進(jìn)行實(shí)時(shí)搜索,制定更精細(xì)的策略。

算法假設(shè)每個(gè)玩家在到達(dá)葉子結(jié)點(diǎn)時(shí),可以選擇四種不同的策略來(lái)進(jìn)行下面的游戲,其中包括預(yù)先計(jì)算的藍(lán)圖策略,修改后偏向于棄牌的藍(lán)圖策略,修改后偏向于跟注的藍(lán)圖策略,以及修改后偏向于加注的藍(lán)圖策略。這樣的搜索方法能找到一種更平衡的策略,從而產(chǎn)生更強(qiáng)的整體表現(xiàn)。

總的來(lái)說(shuō),Pluribus通過(guò)將類(lèi)似的情況打包在一起,減少了關(guān)于是否跟注(call)、加注(raise)或棄牌(fold)的決策點(diǎn)的數(shù)量。使用蒙特卡羅虛擬遺憾最小化(MCCFR),將撲克游戲中樹(shù)搜索的復(fù)雜性從一個(gè)棘手的問(wèn)題降低到一個(gè)可解決的問(wèn)題。

從麻將到“農(nóng)藥” 細(xì)數(shù) AI 攻占的游戲領(lǐng)域

AI “絕悟”已達(dá)到王者榮耀職業(yè)水平

2019 年 8 月 2 日,在吉隆坡舉辦的《王者榮耀》世界冠軍杯(該游戲最高規(guī)格的賽事)半決賽的特設(shè)環(huán)節(jié)中,騰訊 AI Lab 策略協(xié)作型 AI “絕悟”在與職業(yè)選手賽區(qū)聯(lián)隊(duì)的 5v5 競(jìng)技中獲勝。這表明絕悟 AI 已經(jīng)達(dá)到了《王者榮耀》電競(jìng)職業(yè)水平。

“絕悟”名字寓意絕佳領(lǐng)悟力,其技術(shù)研發(fā)始于2017年12月,并在2018年12月通過(guò)了頂尖業(yè)余水平測(cè)試(前職業(yè)選手與主播聯(lián)隊(duì)帶來(lái))。

技術(shù)簡(jiǎn)介以及策略

“絕悟”版本建立了基于“觀察-行動(dòng)-獎(jiǎng)勵(lì)”的深度強(qiáng)化學(xué)習(xí)模型,無(wú)需人類(lèi)數(shù)據(jù),從白板學(xué)習(xí)(Tabula Rasa)開(kāi)始,讓 AI 自己與自己對(duì)戰(zhàn),一天的訓(xùn)練強(qiáng)度高達(dá)人類(lèi) 440 年。

AI 從0到1摸索成功經(jīng)驗(yàn),勤學(xué)苦練,既學(xué)會(huì)了如何站位、打野、輔助保護(hù)和躲避傷害等游戲常識(shí)。更驚喜的是,AI 也探索出了不同于人類(lèi)常規(guī)做法的全新策略。

從麻將到“農(nóng)藥” 細(xì)數(shù) AI 攻占的游戲領(lǐng)域

游戲中的難點(diǎn),是 AI 要在不完全信息、高度復(fù)雜度的情況作出復(fù)雜快速的決策。在龐大且信息不完備的地圖上,10位參與者要在策略規(guī)劃、英雄選擇、技能應(yīng)用、路徑探索及團(tuán)隊(duì)協(xié)作上面臨大量、不間斷、即時(shí)的選擇,這帶來(lái)了極為復(fù)雜的局面,預(yù)計(jì)有高達(dá)10的20000次方種操作可能性,而整個(gè)宇宙原子總數(shù)也只是10的80次方。

另外,版本相關(guān)的技術(shù)論文被頂級(jí)學(xué)術(shù)會(huì)議 AAAI 2020 接收。 

從麻將到“農(nóng)藥” 細(xì)數(shù) AI 攻占的游戲領(lǐng)域

寫(xiě)作AI 跨界下象棋

OpenAI 的 GPT-2在文本生成上有著驚艷的表現(xiàn),其生成的文本在上下文連貫性和情感表達(dá)上都超過(guò)了人們對(duì)目前階段語(yǔ)言模型的預(yù)期。

具體而言這種機(jī)器學(xué)習(xí)算法可以在很多任務(wù)上達(dá)到了業(yè)內(nèi)最佳水平,還可以根據(jù)一小段話自動(dòng)腦補(bǔ)出大段連貫的文本,如有需要,人們可以通過(guò)一些調(diào)整讓計(jì)算機(jī)模擬不同的寫(xiě)作風(fēng)格。

然而這個(gè)NLP 除了做閱讀理解、問(wèn)答、生成文章摘要、翻譯之外,還能用來(lái)干嘛?好奇心很強(qiáng)的網(wǎng)友便拿OpenAI 的 GPT-2 做了個(gè)實(shí)驗(yàn)。它除了能生成文本,竟然還能下象棋、做音樂(lè)!

僅僅經(jīng)過(guò)一個(gè)小時(shí)的訓(xùn)練,GPT-2 1.5B 模型就表現(xiàn)出了國(guó)際象棋“天賦”。雖然在下了幾步棋之后,就會(huì)出現(xiàn)無(wú)效移動(dòng),但這次實(shí)驗(yàn)還是證明了制造 GPT-2 國(guó)際象棋引擎并非不可能。

GPT-2 介紹

2018 年 6 月,OpenAI 發(fā)表論文介紹了自己的語(yǔ)言模型 GPT,它基于 Transformer 架構(gòu),用先在大規(guī)模語(yǔ)料上進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練、再在小得多的有監(jiān)督數(shù)據(jù)集上為具體任務(wù)進(jìn)行精細(xì)調(diào)節(jié)(fine-tune)的方式,不依賴(lài)針對(duì)單獨(dú)任務(wù)的模型設(shè)計(jì)技巧就一次性在多個(gè)任務(wù)中取得了很好的表現(xiàn)。

這也是 2018 年中自然語(yǔ)言處理領(lǐng)域的研究趨勢(shì),就像計(jì)算機(jī)視覺(jué)領(lǐng)域流行 ImageNet 預(yù)訓(xùn)練模型一樣。這次的 GPT-2 是 GPT 的直接技術(shù)升級(jí)版本,有多 10 倍的模型參數(shù),多達(dá) 15 億個(gè),并在多 10 倍的數(shù)據(jù)上進(jìn)行訓(xùn)練。

訓(xùn)練數(shù)據(jù)是來(lái)自互聯(lián)網(wǎng)的 40GB 高質(zhì)量語(yǔ)料,具體來(lái)說(shuō)這些語(yǔ)料來(lái)自 Reddit 論壇中出現(xiàn)的高評(píng)分外鏈頁(yè)面;高評(píng)分表示這些頁(yè)面中的內(nèi)容有較高的質(zhì)量。這樣篩選出的語(yǔ)料內(nèi)容多達(dá) 800 萬(wàn)個(gè)頁(yè)面。模型在無(wú)監(jiān)督訓(xùn)練階段的目標(biāo)是,給定一組單詞組成的句子之后預(yù)測(cè)下文的下一個(gè)詞。

由于數(shù)據(jù)庫(kù)有足夠高的文本質(zhì)量和足夠高的多樣性,模型也有很高的容量,即便這樣簡(jiǎn)單的訓(xùn)練目標(biāo)也得出了驚人的結(jié)果:模型不僅可以根據(jù)給定的文本流暢地續(xù)寫(xiě)句子,甚至可以形成成篇的文章,就像人類(lèi)的續(xù)寫(xiě)文章一樣。

模型生成文本有時(shí)會(huì)出現(xiàn)失敗的現(xiàn)象,比如文字重復(fù)、錯(cuò)誤的世界常識(shí)(比如有時(shí)候模型會(huì)寫(xiě)到在水下燃燒的火)、不自然地切換話題,但在成功的例子中,模型生成的文本有多樣、全面的敘述,對(duì)事件的介紹煞有介事,接近人類(lèi)的表達(dá)質(zhì)量,而且在段落之間甚至全篇文章之中保持連續(xù)一致。

THE END
廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
ai
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

美國(guó)總統(tǒng)唐納德·特朗普上臺(tái)以來(lái),一直提議大幅削減一些聯(lián)邦機(jī)構(gòu)對(duì)基礎(chǔ)研究的資助費(fèi)用。但據(jù)美國(guó)《科學(xué)》雜志網(wǎng)站近日?qǐng)?bào)道,一個(gè)由兩黨參議員組成的團(tuán)體上周提交了《未來(lái)產(chǎn)業(yè)法案》,敦促特朗普政府加倍資...
業(yè)界
1月20日,DLA Piper律師事務(wù)所就歐盟數(shù)據(jù)保護(hù)狀況發(fā)布報(bào)告。報(bào)告顯示,自2018年《一般數(shù)據(jù)保護(hù)條例》(GDPR) 發(fā)布以來(lái),歐盟已經(jīng)收了1.14億歐元(約合1.26億美元)的罰款。然而對(duì)歐盟來(lái)說(shuō),這一切還僅僅是...
業(yè)界
1月20日消息,據(jù)外媒報(bào)道,美國(guó)宇航局(NASA)正與亞馬遜云計(jì)算服務(wù)部門(mén)AWS和亞馬遜機(jī)器學(xué)習(xí)解決方案實(shí)驗(yàn)室合作一個(gè)項(xiàng)目,旨在借助人工智能(AI)為超級(jí)太陽(yáng)風(fēng)暴的爆發(fā)提供早期預(yù)警。
業(yè)界
1月20日消息,據(jù)外媒報(bào)道,人工智能(AI)已成為當(dāng)今科技領(lǐng)域的核心力量之一,正融入到社會(huì)的方方面面。但在給我們帶來(lái)更多便利的同時(shí),AI的負(fù)面效應(yīng)也逐漸顯現(xiàn)出來(lái)。
業(yè)界
1月20日消息,據(jù)外媒報(bào)道,谷歌及其母公司Alphabet首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)日前親自撰文,聲稱(chēng)人工智能(AI)太過(guò)重要,必須受到監(jiān)管,人們非常擔(dān)心AI造成的潛在負(fù)面后果。
業(yè)界
1
3