123,123,123

歡迎進(jìn)入網(wǎng)上館配會(huì)薦購(gòu)選采服務(wù)平臺(tái) 圖書(shū)館單位會(huì)員注冊(cè) 圖書(shū)館讀者/館員登錄

書(shū)單推薦

更多

·二十四節(jié)氣｜冬至

·二十四節(jié)氣｜白露

·二十四節(jié)氣｜處暑

·二十四節(jié)氣｜立秋

·二十四節(jié)氣｜大暑

·二十四節(jié)氣｜夏至

·科學(xué)出版社精品典藏

·清華大學(xué)出版社—2024年度好

新書(shū)推薦

更多

·《中國(guó)經(jīng)濟(jì)學(xué)(2025年第2輯總

·《行為博弈》

·《神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)與應(yīng)用》

·《精準(zhǔn)落實(shí)》

·《新生物學(xué)本質(zhì)主義研究》

·《賞文物話中醫(yī)》

·《把熱愛(ài)變成事業(yè)》

多智能體強(qiáng)化學(xué)習(xí)：基礎(chǔ)與現(xiàn)代方法 [德]斯特凡諾·V. 阿爾布萊希特 [希]菲利波斯·克里斯蒂安諾斯 [德]盧卡斯·舍費(fèi)

定　　價(jià)：109 元

當(dāng)前圖書(shū)已被 56 所學(xué)校薦購(gòu)過(guò)！

查看明細(xì)

作者：[德]斯特凡諾·V. 阿爾布萊希特（Stefano V. Albrecht）[希]菲利波斯·克里斯蒂安諾斯（Filippos Christianos）[德]盧卡斯·舍費(fèi)爾（Lukas Sch？fer）
出版時(shí)間：2025/5/1
ISBN：9787111776871
出版社：機(jī)械工業(yè)出版社

中圖法分類：TP18
頁(yè)碼：
紙張：膠版紙
版次：
開(kāi)本：16開(kāi)

9

7

8

7

6

1

8

1

7

1

多智能體強(qiáng)化學(xué)習(xí)（Multi-Agent Reinforcement Learning, MARL）是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域，研究多個(gè)智能體如何在共享環(huán)境中學(xué)習(xí)最優(yōu)的交互方式。這一領(lǐng)域在現(xiàn)代生活中有著廣泛的應(yīng)用，包括自動(dòng)駕駛、多機(jī)器人工廠、自動(dòng)化交易和能源網(wǎng)絡(luò)管理等。本書(shū)是一部系統(tǒng)闡述多智能體強(qiáng)化學(xué)習(xí)理論與技術(shù)的權(quán)威著作，清晰而嚴(yán)謹(jǐn)?shù)亟榻B了MARL的模型、解決方案概念、算法思想、技術(shù)挑戰(zhàn)以及現(xiàn)代方法。書(shū)中首先介紹了該領(lǐng)域的基礎(chǔ)知識(shí)，包括強(qiáng)化學(xué)習(xí)理論和算法的基礎(chǔ)、交互式博弈模型、博弈中的不同解決方案概念以及支撐MARL研究的算法思想。隨后，書(shū)中詳細(xì)介紹了利用深度學(xué)習(xí)技術(shù)的現(xiàn)代MARL算法，涵蓋集中訓(xùn)練與分散執(zhí)行、價(jià)值分解、參數(shù)共享和自博弈等思想。本書(shū)還附帶了一個(gè)用Python編寫的MARL代碼庫(kù)，其中包括自包含且易于閱讀的MARL算法實(shí)現(xiàn)。本書(shū)技術(shù)內(nèi)容以易于理解的語(yǔ)言解釋，并通過(guò)大量示例進(jìn)行說(shuō)明，既為初學(xué)者闡明了MARL的概念，也為專業(yè)的讀者提供了高層次的見(jiàn)解。

譯　者　序多智能體強(qiáng)化學(xué)習(xí)（MARL）作為人工智能的一個(gè)新興研究領(lǐng)域，已經(jīng)在國(guó)際上積累了較為豐富的研究成果和實(shí)踐經(jīng)驗(yàn)。本書(shū)系統(tǒng)性地總結(jié)了MARL的研究脈絡(luò)，在領(lǐng)域內(nèi)有較強(qiáng)的影響力。本書(shū)由Stefano V.Albrecht、Filippos Christianos和Lukas Schfer三位在多智能體系統(tǒng)和強(qiáng)化學(xué)習(xí)領(lǐng)域享有盛譽(yù)的專家共同撰寫。本書(shū)內(nèi)容主要分為兩部分：第一部分介紹MARL中的基本概念和基礎(chǔ)知識(shí)；第二部分則介紹基于深度學(xué)習(xí)技術(shù)的前沿MARL研究。本書(shū)不僅涵蓋堅(jiān)實(shí)的理論基礎(chǔ)，還在實(shí)踐層面展示了將復(fù)雜概念轉(zhuǎn)化為應(yīng)用方案的方法。通過(guò)具體的算法實(shí)踐，讀者可以加深對(duì)理論知識(shí)的理解。我們希望這本中文翻譯版可以給國(guó)內(nèi)讀者帶來(lái)閱讀的便利。得益于大語(yǔ)言模型的幫助，本書(shū)的翻譯效率得到了極大的提升。在翻譯過(guò)程中，我們也遇到了一些挑戰(zhàn)，例如，某些術(shù)語(yǔ)尚無(wú)統(tǒng)一的中文翻譯，我們選擇了目前較為主流的翻譯，并在首次出現(xiàn)時(shí)標(biāo)注了其他可能的翻譯，以便讀者理解。此外，為了讓本書(shū)更加通俗易懂，我們?cè)诜g時(shí)特別注重語(yǔ)言的流暢性和表達(dá)的準(zhǔn)確性。我們力求將復(fù)雜的概念用簡(jiǎn)潔明了的語(yǔ)言進(jìn)行解釋，同時(shí)保留原文的科學(xué)性和嚴(yán)謹(jǐn)性。在此，我們要特別感謝在本書(shū)翻譯過(guò)程中給予支持和幫助的所有老師和同學(xué)。他們的建議和指導(dǎo)使本書(shū)的翻譯更加準(zhǔn)確和完善。同時(shí)，也要感謝機(jī)械工業(yè)出版社的支持，使得這本書(shū)的中文版得以順利出版。盡管我們?cè)诜g過(guò)程中力求準(zhǔn)確無(wú)誤，但由于時(shí)間和精力有限，書(shū)中難免存在疏漏之處。我們誠(chéng)摯地歡迎讀者提出寶貴的批評(píng)和建議，以便我們?cè)诤罄m(xù)版本中不斷改進(jìn)和完善。前　　言多智能體強(qiáng)化學(xué)習(xí)（Multi-Agent Reinforcement Learning，MARL）是一個(gè)多樣化且極為活躍的研究領(lǐng)域。隨著深度學(xué)習(xí)在2010年代中期被引入多智能體強(qiáng)化學(xué)習(xí)，該領(lǐng)域的研究工作出現(xiàn)了爆炸式增長(zhǎng)�，F(xiàn)在，所有主要的人工智能和機(jī)器學(xué)習(xí)會(huì)議都會(huì)例行討論相關(guān)文章，比如開(kāi)發(fā)新的多智能體強(qiáng)化學(xué)習(xí)算法或以某種方式應(yīng)用多智能體強(qiáng)化學(xué)習(xí)。這種急劇增長(zhǎng)還體現(xiàn)在自那以后發(fā)表的越來(lái)越多的綜述論文中，我們?cè)跁?shū)末列出了許多這樣的論文。隨著這種增長(zhǎng)，該領(lǐng)域顯然需要一本教科書(shū)來(lái)提供對(duì)多智能體強(qiáng)化學(xué)習(xí)的原則性介紹。本書(shū)部分基于并在很大程度上遵循了Stefano V.Albrecht和Peter Stone在2017年澳大利亞墨爾本舉行的國(guó)際人工智能聯(lián)合會(huì)議（International Joint Conference on Artificial Intelligence，IJCAI）上所做的“Multiagent Learning:Foundations and Recent Trends”報(bào)告的結(jié)構(gòu)。本書(shū)的寫作目的是對(duì)多智能體強(qiáng)化學(xué)習(xí)中的模型、求解、算法思想和技術(shù)挑戰(zhàn)進(jìn)行基本介紹，并描述將深度學(xué)習(xí)技術(shù)整合進(jìn)多智能體強(qiáng)化學(xué)習(xí)以產(chǎn)生強(qiáng)大新算法的現(xiàn)代方法。從本質(zhì)上講，我們認(rèn)為本書(shū)所涵蓋的材料應(yīng)該為每一位從事多智能體強(qiáng)化學(xué)習(xí)的研究人員所了解。此外，本書(shū)還旨在為研究人員和從業(yè)人員使用MARL算法提供實(shí)用指導(dǎo)。為此，本書(shū)附帶了用Python編程語(yǔ)言編寫的代碼庫(kù)，其中包含本書(shū)討論的幾種多智能體強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)。代碼庫(kù)的主要目的是提供自成一體且易于閱讀的算法代碼，以幫助讀者理解。本書(shū)假定讀者具有本科水平的基礎(chǔ)數(shù)學(xué)背景，包括統(tǒng)計(jì)學(xué)、概率論、線性代數(shù)和微積分。此外，為了理解和使用代碼庫(kù)，讀者需要熟悉基本的編程概念。通常，我們建議按順序閱讀本書(shū)的各個(gè)章節(jié)。對(duì)于不熟悉強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的讀者，我們將在第2章、第7章和第8章分別介紹相關(guān)基礎(chǔ)知識(shí)。對(duì)于已經(jīng)熟悉強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的讀者，如果想快速開(kāi)始學(xué)習(xí)基于深度學(xué)習(xí)的最新多智能體強(qiáng)化學(xué)習(xí)算法，那么可以先閱讀第3章，然后跳到第9章及以后的章節(jié)。為了幫助教師采用本書(shū)，我們制作了講義幻燈片（可從本書(shū)網(wǎng)站獲�。�，內(nèi)容可根據(jù)課程需要進(jìn)行修改。多智能體強(qiáng)化學(xué)習(xí)已成為一個(gè)龐大的研究領(lǐng)域，本書(shū)并未涵蓋其所有方面。例如，關(guān)于在多智能體強(qiáng)化學(xué)習(xí)中使用通信的研究日益增多，但本書(shū)并未涉及。這方面的研究問(wèn)題包括：當(dāng)通信信道嘈雜、不可靠時(shí)，智能體如何學(xué)會(huì)穩(wěn)健地進(jìn)行通信；智能體如何利用多智能體強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)針對(duì)特定任務(wù)的專用通信協(xié)議或語(yǔ)言。雖然本書(shū)的重點(diǎn)不是多智能體強(qiáng)化學(xué)習(xí)中的通信，但本書(shū)介紹的模型具有足夠的通用性，也可以表示通信行為（如3.5節(jié)所述）。此外，還有關(guān)于將演化博弈論用于多智能體學(xué)習(xí)的研究，在本書(shū)中也沒(méi)有涉及（我們推薦Bloembergen等人于2015年發(fā)表的優(yōu)秀綜述）。最后，隨著近年來(lái)多智能體強(qiáng)化學(xué)習(xí)研究工作的急劇增加，試圖編寫一本跟上新算法的書(shū)籍是徒勞的。因此，我們將重點(diǎn)放在多智能體強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念和思想上，并參考研究綜述論文（書(shū)末），以獲知更完整的算法發(fā)展歷程。致謝：我們非常感謝在本書(shū)撰寫過(guò)程中許多與我們合作或提供反饋意見(jiàn)的人。在這里，特別感謝MIT出版社的Elizabeth Swayze和Matthew Valades，他們?cè)诔霭孢^(guò)程中給予了我們悉心的指導(dǎo)。許多同事也為我們提供了寶貴的反饋意見(jiàn)和建議，我們?cè)诖艘徊⒈硎靖兄x（按姓氏字母順序排列）：Christopher Amato、Marina Aoyama、Ignacio Carlucho、Georgios Chalkiadakis、Sam Dauncey、Alex Davey、Bertrand Decoster、Mhairi Dunion、Kousha Etessami、Aris Filos-Ratsikas、Elliot Fosong、Amy Greenwald、Dongge Han、Josiah Hanna、Leonard Hinckeldey、Sarah Keren、Mykel Kochenderfer、Marc Lanctot、Stefanos Leonardos、Michael Littman、Luke Marris、Elle McFarlane、Trevor McInroe、Mahdi Kazemi Moghaddam、Frans Oliehoek、Georgios Papoudakis、Tabish Rashid、Michael Rovatsos、Rahat Santosh、Raul Steleac、Massimiliano Tamborski、Kale-ab Tessera、Callum Tilbury、Jeroen van Riel、Zhu Zheng。我們還要感謝為MIT出版社審閱本書(shū)的匿名審稿人。圖2.3中的火星探測(cè)車的馬爾可夫決策過(guò)程（Markov Decision Process，MDP）基于Elliot Fosong和Adam Jelley為愛(ài)丁堡大學(xué)強(qiáng)化學(xué)習(xí)課程創(chuàng)建的類似的馬爾可夫決策過(guò)程。圖4.4和圖4.5b中的圖像是Mahdi Kazemi Moghaddam為本書(shū)制作的。我們非常感謝Karl Tuyls在2023年智能體及多智能體系統(tǒng)（Autonomous Agents and Multi-Agent Systems，AAMAS）國(guó)際會(huì)議上發(fā)表的主旨演講中宣布了本書(shū)的出版。勘誤：盡管我們盡了最大努力，但仍可能有一些錯(cuò)字或不準(zhǔn)確之處未被注意到。如果發(fā)現(xiàn)任何錯(cuò)誤，請(qǐng)通過(guò)電子郵件issues@marl-book.com向我們告知，我們將不勝感激。本書(shū)網(wǎng)站、代碼庫(kù)和幻燈片：本書(shū)的完整PDF版本以及附帶資料（包括代碼庫(kù)和講義幻燈片）的鏈接可在本書(shū)網(wǎng)站上找到：www.marl-book.com。

目　　錄譯者序前言符號(hào)總覽第1章　引言1　1.1　多智能體系統(tǒng)1　1.2　多智能體強(qiáng)化學(xué)習(xí)4　1.3　應(yīng)用示例61.3.1　多機(jī)器人倉(cāng)庫(kù)管理61.3.2　棋盤游戲和電子游戲中的競(jìng)爭(zhēng)性對(duì)戰(zhàn)71.3.3　自動(dòng)駕駛71.3.4　電子市場(chǎng)中的自動(dòng)化交易7　1.4　多智能體強(qiáng)化學(xué)習(xí)的挑戰(zhàn)8　1.5　多智能體強(qiáng)化學(xué)習(xí)的議題9　1.6　本書(shū)內(nèi)容和結(jié)構(gòu)10第一部分　多智能體強(qiáng)化學(xué)習(xí)的基礎(chǔ)第2章　強(qiáng)化學(xué)習(xí)12　2.1　一般定義12　2.2　馬爾可夫決策過(guò)程14　2.3　期望折扣回報(bào)和最優(yōu)策略16　2.4　價(jià)值函數(shù)與貝爾曼方程17　2.5　動(dòng)態(tài)規(guī)劃18　2.6　時(shí)序差分學(xué)習(xí)21　2.7　學(xué)習(xí)曲線評(píng)估23　2.8　R(s,a,s′)和R(s，a)的等價(jià)性26　2.9　總結(jié)27第3章　博弈：多智能體交互模型28　3.1　標(biāo)準(zhǔn)式博弈29　3.2　重復(fù)標(biāo)準(zhǔn)式博弈30　3.3　隨機(jī)博弈31　3.4　部分可觀測(cè)隨機(jī)博弈33　3.5　建模通信35　3.6　博弈中的知識(shí)假設(shè)36　3.7　詞典：強(qiáng)化學(xué)習(xí)與博弈論37　3.8　總結(jié)38第4章　博弈的解概念40　4.1　聯(lián)合策略與期望回報(bào)41　4.2　最佳響應(yīng)42　4.3　極小極大算法43　4.4　納什均衡44　4.5　-納什均衡46　4.6�。ù郑┫嚓P(guān)均衡47　4.7　均衡解的概念局限性49　4.8　帕雷托最優(yōu)50　4.9　社會(huì)福利和公平51　4.10　無(wú)悔53　4.11　均衡計(jì)算的復(fù)雜性544.11.1　PPAD復(fù)雜性類554.11.2　計(jì)算-納什均衡是PPAD-完全問(wèn)題56　4.12　總結(jié)57第5章　博弈中的多智能體強(qiáng)化學(xué)習(xí)：第一步與挑戰(zhàn)58　5.1　一般學(xué)習(xí)過(guò)程58　5.2　收斂類型60　5.3　單智能體強(qiáng)化學(xué)習(xí)的簡(jiǎn)化625.3.1　中心學(xué)習(xí)625.3.2　獨(dú)立學(xué)習(xí)635.3.3　示例：基于等級(jí)的搜尋65　5.4　多智能體強(qiáng)化學(xué)習(xí)的挑戰(zhàn)665.4.1　非平穩(wěn)性675.4.2　均衡選擇685.4.3　多智能體信用分配695.4.4　擴(kuò)展到多個(gè)智能體71　5.5　智能體使用哪些算法715.5.1　自博弈725.5.2　混合博弈72　5.6　總結(jié)73第6章　多智能體強(qiáng)化學(xué)習(xí)：基礎(chǔ)算法75　6.1　博弈的動(dòng)態(tài)規(guī)劃：價(jià)值迭代75　6.2　博弈中的時(shí)序差分：聯(lián)合動(dòng)作學(xué)習(xí)776.2.1　極小極大Q學(xué)習(xí)796.2.2　納什Q學(xué)習(xí)806.2.3　相關(guān)Q學(xué)習(xí)816.2.4　聯(lián)合動(dòng)作學(xué)習(xí)的局限性81　6.3　智能體建模826.3.1　虛擬博弈836.3.2　智能體建模的聯(lián)合動(dòng)作學(xué)習(xí)856.3.3　貝葉斯學(xué)習(xí)與信息價(jià)值87　6.4　基于策略的學(xué)習(xí)926.4.1　期望獎(jiǎng)勵(lì)中的梯度上升926.4.2　無(wú)窮小梯度上升的學(xué)習(xí)動(dòng)態(tài)936.4.3　贏或快速學(xué)習(xí)946.4.4　用策略爬山算法實(shí)現(xiàn)贏或快速學(xué)習(xí)966.4.5　廣義無(wú)窮小梯度上升98　6.5　無(wú)悔學(xué)習(xí)996.5.1　無(wú)條件與有條件的遺憾匹配996.5.2　遺憾匹配的收斂性100　6.6　總結(jié)103第二部分　多智能體深度強(qiáng)化學(xué)習(xí)：算法與實(shí)踐第7章　深度學(xué)習(xí)106　7.1　強(qiáng)化學(xué)習(xí)的函數(shù)逼近106　7.2　線性函數(shù)逼近107　7.3　前饋神經(jīng)網(wǎng)絡(luò)1087.3.1　神經(jīng)元1097.3.2　激活函數(shù)1097.3.3　由層和單元構(gòu)成網(wǎng)絡(luò)110　7.4　基于梯度的優(yōu)化1117.4.1　損失函數(shù)1117.4.2　梯度下降1127.4.3　反向傳播114　7.5　卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)1147.5.1　從圖像中學(xué)習(xí)——利用數(shù)據(jù)中的空間關(guān)系1157.5.2　利用記憶從序列中學(xué)習(xí)116　7.6　總結(jié)117第8章　深度強(qiáng)化學(xué)習(xí)119　8.1　深度價(jià)值函數(shù)逼近1198.1.1　深度Q學(xué)習(xí)——可能出現(xiàn)什么問(wèn)題1208.1.2　目標(biāo)值變動(dòng)問(wèn)題1218.1.3　打破相關(guān)性1238.1.4　匯總：深度Q網(wǎng)絡(luò)1248.1.5　超越深度Q網(wǎng)絡(luò)126　8.2　策略梯度算法1268.2.1　學(xué)習(xí)策略的優(yōu)勢(shì)1278.2.2　策略梯度定理1288.2.3　REINFORCE：蒙特卡羅策略梯度1298.2.4　演員-評(píng)論家算法1318.2.5　A2C：優(yōu)勢(shì)演員-評(píng)論家1328.2.6　近端策略優(yōu)化1348.2.7　策略梯度算法在實(shí)踐中的應(yīng)用1358.2.8　策略的并行訓(xùn)練136　8.3　實(shí)踐中的觀測(cè)、狀態(tài)和歷史記錄139　8.4　總結(jié)140第9章　多智能體深度強(qiáng)化學(xué)習(xí)142　9.1　訓(xùn)練和執(zhí)行模式1429.1.1　集中式訓(xùn)練和執(zhí)行1439.1.2　分散式訓(xùn)練和執(zhí)行1439.1.3　集中式訓(xùn)練與分散式執(zhí)行144　9.2　多智能體深度強(qiáng)化學(xué)習(xí)的符號(hào)表示144　9.3　獨(dú)立學(xué)習(xí)1459.3.1　基于獨(dú)立價(jià)值的學(xué)習(xí)1459.3.2　獨(dú)立策略梯度方法1469.3.3　示例：大型任務(wù)中的深度獨(dú)立學(xué)習(xí)149　9.4　多智能體策略梯度算法1509.4.1　多智能體策略梯度定理1509.4.2　集中式評(píng)論家1519.4.3　集中式動(dòng)作-價(jià)值評(píng)論家1539.4.4　反事實(shí)動(dòng)作-價(jià)值估計(jì)1549.4.5　使用集中式動(dòng)作-價(jià)值評(píng)論家的均衡選擇155　9.5　共享獎(jiǎng)勵(lì)博弈中的價(jià)值分解1579.5.1　個(gè)體-全局-最大化性質(zhì)1599.5.2　線性價(jià)值分解1599.5.3　單調(diào)價(jià)值分解1629.5.4　實(shí)踐中的價(jià)值分解1669.5.5　超越單調(diào)價(jià)值分解170　9.6　使用神經(jīng)網(wǎng)絡(luò)的智能體建模1739.6.1　用深度智能體模型進(jìn)行聯(lián)合動(dòng)作學(xué)習(xí)1739.6.2　學(xué)習(xí)智能體策略的表示176　9.7　具有同質(zhì)智能體的環(huán)境1789.7.1　參數(shù)共享1799.7.2　經(jīng)驗(yàn)共享180　9.8　零和博弈中的策略自博弈1829.8.1　蒙特卡羅樹(shù)搜索1839.8.2　自博弈蒙特卡羅樹(shù)搜索1869.8.3　帶有深度神經(jīng)網(wǎng)絡(luò)的自博弈MCTS：AlphaZero187　9.9　基于種群的訓(xùn)練1889.9.1　策略空間響應(yīng)預(yù)言家1899.9.2　PSRO的收斂性1929.9.3　《星際爭(zhēng)霸Ⅱ》中的宗師級(jí)別：AlphaStar194　9.10　總結(jié)196第10章　實(shí)踐中的多智能體深度強(qiáng)化學(xué)習(xí)198　10.1　智能體環(huán)境接口198　10.2　PyTorch中的多智能體強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)19910.2.1　無(wú)縫參數(shù)共享實(shí)現(xiàn)20110.2.2　定義模型：IDQN的一個(gè)示例201　10.3　集中式價(jià)值函數(shù)203　10.4　價(jià)值分解204　10.5　多智能體強(qiáng)化學(xué)習(xí)算法的實(shí)用技巧20510.5.1　堆疊時(shí)間步與循環(huán)網(wǎng)絡(luò)20510.5.2　標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)20510.5.3　集中式優(yōu)化206　10.6　實(shí)驗(yàn)結(jié)果的展示20610.6.1　學(xué)習(xí)曲線20610.6.2　超參數(shù)搜索207第11章　多智能體環(huán)境209　11.1　選擇環(huán)境的標(biāo)準(zhǔn)209　11.2　結(jié)構(gòu)不同的2×2矩陣博弈21011.2.1　無(wú)沖突博弈21011.2.2　沖突博弈211　11.3　復(fù)雜環(huán)境21211.3.1　基于等級(jí)的搜尋21311.3.2　多智能體粒子環(huán)境21411.3.3　星際爭(zhēng)霸多智能體挑戰(zhàn)21511.3.4　多機(jī)器人倉(cāng)庫(kù)21611.3.5　谷歌足球21711.3.6　《花火》21711.3.7　《胡鬧廚房》218　11.4　環(huán)境集合21811.4.1　熔爐21911.4.2　OpenSpiel21911.4.3　Petting Zoo220多智能體強(qiáng)化學(xué)習(xí)研究綜述221參考文獻(xiàn)224

你還可能感興趣

我要評(píng)論

感谢您访问我们的网站，您可能还对以下资源感兴趣：

免费的a级毛片

性欧美牲交xxxxx视频极品美女扒开粉嫩小泬高潮 av视频一区在线播放亚洲最大无码一区二区三区