男人网站,国产精品对白刺激久久久,性XXXX欧美老妇506070,哦┅┅快┅┅用力啊┅┅在线观看

從麻將到“農(nóng)藥” 細數(shù) AI 攻占的游戲領域

人工智能
2020
02/08
23:31
雷鋒網(wǎng)
分享
評論

出處:雷鋒網(wǎng)  作者:蔣寶尚

按照傳統(tǒng),過年需要走親訪友給長輩拜年的。但是今年情況特殊,相信大家已經(jīng)不會走街串巷,舉行大型聚會了。

但親朋好友聚仍然可以“云聚會”聊家常、催你結(jié)婚。當然線上搓兩把麻將也是不錯的娛樂方式,畢竟這在促進相互交流的同時,還可以發(fā)揮你的聰明才智和運氣。

但是要記住,你線上隨機匹配對戰(zhàn)的話,很容易被AI給“伏擊”了。因為這兩年除了圍棋、DOTA之外,AI已經(jīng)悄無聲息的攻占了些許游戲領域。下面就讓 雷鋒網(wǎng) 給大家梳理一下已經(jīng)被AI攻占的娛樂領域,也歡迎讀者文末留言補充。

AI麻將獲人類頂級水平

2019年8月份微軟發(fā)布了他們在麻將游戲中取得的重大突破:麻將AI “Suphx”在國際知名專業(yè)麻將平臺“天鳳”上榮升十段。

“天鳳”是日本的一個在線麻將競技平臺,創(chuàng)立于2006年。天鳳平臺的“十段”水平意味著Suphx在麻將界擁有了等同于AlphaGo在圍棋界的地位。

Suphx在2019年3月份開始登錄天鳳平臺,經(jīng)過近三個多月、與人類玩家展開了5000余場四麻對局后,6月份Suphx成功晉級天鳳十段,也是首個晉級十段的AI系統(tǒng)。

從麻將到“農(nóng)藥” 細數(shù) AI 攻占的游戲領域

技術簡介以及策略

136張麻將牌的排列組合可能性非常多,再加上打牌過程中4位玩家出牌的順序并不是固定的(例如碰杠等),導致游戲樹不僅不規(guī)則而且還是動態(tài)變化。

這些特點使得麻將AI很難使用AlphaGo那樣的蒙特卡洛樹搜索算法。麻將中每個玩家除了手中的13張牌和已經(jīng)打出的牌外,其他玩家手中的牌和剩余的底牌都是未知的(最多可以有超過120張未知的牌),由于隱藏信息過多導致游戲樹的寬度非常大,樹搜索算法基本不可行。

對于日本麻將而言,一輪游戲共包含8局,最后根據(jù)8局得分總和進行排名,來形成最終影響段位的點數(shù)獎懲。所以AI需要審時度勢,把握進攻與防守的時機。

對麻將的這些特點,研究者將整個訓練過程分為三個階段。首先是“初始化”階段,本質(zhì)上就是用專家數(shù)據(jù)(天鳳平臺提供的一些公開數(shù)據(jù))做有監(jiān)督學習,得到一個初始模型。隨后在這個初始模型基礎上用自我博弈的方式進行強化學習。

在這個階段,為了克服非完美信息博弈的問題,研究者在訓練階段利用不可見的一些隱藏信息來引導AI模型的訓練方向。此外還利用“全盤預測”技術搭建起每輪比賽和8輪過后的終盤結(jié)果之間的橋梁。第三個階段則是在線比賽,通過不斷參與到與人類玩家的對局中,從而不斷得到自我更新和提高。

AI 賭神升級6人局德?lián)渫陝偈澜绻谲?/strong>

2017年年初,在卡耐基梅隆大學(CMU)舉行了德州撲克人機大戰(zhàn),在比賽中4名人類職業(yè)玩家組成的人類大腦敗給了人工智能程序Libratus。

如果說當時Libratus擅長的是1V1領域,那么2019年7月份的Pluribus在無限制德州撲克6人局里,戰(zhàn)勝了人類頂尖選手。

從麻將到“農(nóng)藥” 細數(shù) AI 攻占的游戲領域

Pluribus由Facebook與CMU合作開發(fā),相關論文發(fā)表在了《Sicence》上面。據(jù)《Superhuman AI for multiplayer poker》這篇論文介紹,Pluribus,每小時能贏1千刀且只用了8天的訓練時間。

技術簡介以及策略

根據(jù)論文介紹,整個AI的設計分為兩個階段,第一階段為藍圖策略,這一階段是為了降低游戲的復雜性,進行游戲抽象。抽象分為兩個部分動作抽象和信息抽象:動作抽象減少了AI需要考慮的不同動作的數(shù)量;信息抽象則是把策略上相似的牌局放在一起,并對其進行相同處理。

當然除了抽象之外,這部分所采用的算法是迭代的蒙特卡洛反事實遺憾最小化算法(MCCFR)。在算法的每次迭代中,MCCFR對玩家的某些行為或機會結(jié)果進行采樣。在迭代結(jié)束時,玩家策略會更新,然后對每個可能發(fā)生的情況進行概率統(tǒng)計,通過搜索決策樹來決定下一步的行為。

第二階段是深度限制搜索,這一階段Pluribus會進行實時搜索,制定更精細的策略。

算法假設每個玩家在到達葉子結(jié)點時,可以選擇四種不同的策略來進行下面的游戲,其中包括預先計算的藍圖策略,修改后偏向于棄牌的藍圖策略,修改后偏向于跟注的藍圖策略,以及修改后偏向于加注的藍圖策略。這樣的搜索方法能找到一種更平衡的策略,從而產(chǎn)生更強的整體表現(xiàn)。

總的來說,Pluribus通過將類似的情況打包在一起,減少了關于是否跟注(call)、加注(raise)或棄牌(fold)的決策點的數(shù)量。使用蒙特卡羅虛擬遺憾最小化(MCCFR),將撲克游戲中樹搜索的復雜性從一個棘手的問題降低到一個可解決的問題。

從麻將到“農(nóng)藥” 細數(shù) AI 攻占的游戲領域

AI “絕悟”已達到王者榮耀職業(yè)水平

2019 年 8 月 2 日,在吉隆坡舉辦的《王者榮耀》世界冠軍杯(該游戲最高規(guī)格的賽事)半決賽的特設環(huán)節(jié)中,騰訊 AI Lab 策略協(xié)作型 AI “絕悟”在與職業(yè)選手賽區(qū)聯(lián)隊的 5v5 競技中獲勝。這表明絕悟 AI 已經(jīng)達到了《王者榮耀》電競職業(yè)水平。

“絕悟”名字寓意絕佳領悟力,其技術研發(fā)始于2017年12月,并在2018年12月通過了頂尖業(yè)余水平測試(前職業(yè)選手與主播聯(lián)隊帶來)。

技術簡介以及策略

“絕悟”版本建立了基于“觀察-行動-獎勵”的深度強化學習模型,無需人類數(shù)據(jù),從白板學習(Tabula Rasa)開始,讓 AI 自己與自己對戰(zhàn),一天的訓練強度高達人類 440 年。

AI 從0到1摸索成功經(jīng)驗,勤學苦練,既學會了如何站位、打野、輔助保護和躲避傷害等游戲常識。更驚喜的是,AI 也探索出了不同于人類常規(guī)做法的全新策略。

從麻將到“農(nóng)藥” 細數(shù) AI 攻占的游戲領域

游戲中的難點,是 AI 要在不完全信息、高度復雜度的情況作出復雜快速的決策。在龐大且信息不完備的地圖上,10位參與者要在策略規(guī)劃、英雄選擇、技能應用、路徑探索及團隊協(xié)作上面臨大量、不間斷、即時的選擇,這帶來了極為復雜的局面,預計有高達10的20000次方種操作可能性,而整個宇宙原子總數(shù)也只是10的80次方。

另外,版本相關的技術論文被頂級學術會議 AAAI 2020 接收。 

從麻將到“農(nóng)藥” 細數(shù) AI 攻占的游戲領域

寫作AI 跨界下象棋

OpenAI 的 GPT-2在文本生成上有著驚艷的表現(xiàn),其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預期。

具體而言這種機器學習算法可以在很多任務上達到了業(yè)內(nèi)最佳水平,還可以根據(jù)一小段話自動腦補出大段連貫的文本,如有需要,人們可以通過一些調(diào)整讓計算機模擬不同的寫作風格。

然而這個NLP 除了做閱讀理解、問答、生成文章摘要、翻譯之外,還能用來干嘛?好奇心很強的網(wǎng)友便拿OpenAI 的 GPT-2 做了個實驗。它除了能生成文本,竟然還能下象棋、做音樂!

僅僅經(jīng)過一個小時的訓練,GPT-2 1.5B 模型就表現(xiàn)出了國際象棋“天賦”。雖然在下了幾步棋之后,就會出現(xiàn)無效移動,但這次實驗還是證明了制造 GPT-2 國際象棋引擎并非不可能。

GPT-2 介紹

2018 年 6 月,OpenAI 發(fā)表論文介紹了自己的語言模型 GPT,它基于 Transformer 架構(gòu),用先在大規(guī)模語料上進行無監(jiān)督預訓練、再在小得多的有監(jiān)督數(shù)據(jù)集上為具體任務進行精細調(diào)節(jié)(fine-tune)的方式,不依賴針對單獨任務的模型設計技巧就一次性在多個任務中取得了很好的表現(xiàn)。

這也是 2018 年中自然語言處理領域的研究趨勢,就像計算機視覺領域流行 ImageNet 預訓練模型一樣。這次的 GPT-2 是 GPT 的直接技術升級版本,有多 10 倍的模型參數(shù),多達 15 億個,并在多 10 倍的數(shù)據(jù)上進行訓練。

訓練數(shù)據(jù)是來自互聯(lián)網(wǎng)的 40GB 高質(zhì)量語料,具體來說這些語料來自 Reddit 論壇中出現(xiàn)的高評分外鏈頁面;高評分表示這些頁面中的內(nèi)容有較高的質(zhì)量。這樣篩選出的語料內(nèi)容多達 800 萬個頁面。模型在無監(jiān)督訓練階段的目標是,給定一組單詞組成的句子之后預測下文的下一個詞。

由于數(shù)據(jù)庫有足夠高的文本質(zhì)量和足夠高的多樣性,模型也有很高的容量,即便這樣簡單的訓練目標也得出了驚人的結(jié)果:模型不僅可以根據(jù)給定的文本流暢地續(xù)寫句子,甚至可以形成成篇的文章,就像人類的續(xù)寫文章一樣。

模型生成文本有時會出現(xiàn)失敗的現(xiàn)象,比如文字重復、錯誤的世界常識(比如有時候模型會寫到在水下燃燒的火)、不自然地切換話題,但在成功的例子中,模型生成的文本有多樣、全面的敘述,對事件的介紹煞有介事,接近人類的表達質(zhì)量,而且在段落之間甚至全篇文章之中保持連續(xù)一致。

THE END
廣告、內(nèi)容合作請點擊這里 尋求合作
ai
免責聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點和立場。

相關熱點

美國總統(tǒng)唐納德·特朗普上臺以來,一直提議大幅削減一些聯(lián)邦機構(gòu)對基礎研究的資助費用。但據(jù)美國《科學》雜志網(wǎng)站近日報道,一個由兩黨參議員組成的團體上周提交了《未來產(chǎn)業(yè)法案》,敦促特朗普政府加倍資...
業(yè)界
1月20日,DLA Piper律師事務所就歐盟數(shù)據(jù)保護狀況發(fā)布報告。報告顯示,自2018年《一般數(shù)據(jù)保護條例》(GDPR) 發(fā)布以來,歐盟已經(jīng)收了1.14億歐元(約合1.26億美元)的罰款。然而對歐盟來說,這一切還僅僅是...
業(yè)界
1月20日消息,據(jù)外媒報道,美國宇航局(NASA)正與亞馬遜云計算服務部門AWS和亞馬遜機器學習解決方案實驗室合作一個項目,旨在借助人工智能(AI)為超級太陽風暴的爆發(fā)提供早期預警。
業(yè)界
1月20日消息,據(jù)外媒報道,人工智能(AI)已成為當今科技領域的核心力量之一,正融入到社會的方方面面。但在給我們帶來更多便利的同時,AI的負面效應也逐漸顯現(xiàn)出來。
業(yè)界
1月20日消息,據(jù)外媒報道,谷歌及其母公司Alphabet首席執(zhí)行官桑達爾·皮查伊(Sundar Pichai)日前親自撰文,聲稱人工智能(AI)太過重要,必須受到監(jiān)管,人們非常擔心AI造成的潛在負面后果。
業(yè)界
1
3