多智能體強(qiáng)化學(xué)習(xí):基礎(chǔ)與現(xiàn)代方法 [德]斯特凡諾·V. 阿爾布萊希特 [希]菲利波斯·克里斯蒂安諾斯 [德]盧卡斯·舍費(fèi)
定 價(jià):109 元
- 作者:[德]斯特凡諾·V. 阿爾布萊希特(Stefano V. Albrecht)[希]菲利波斯·克里斯蒂安諾斯(Filippos Christianos)[德]盧卡斯·舍費(fèi)爾(Lukas Sch?fer)
- 出版時(shí)間:2025/5/1
- ISBN:9787111776871
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP18
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning, MARL)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域,研究多個(gè)智能體如何在共享環(huán)境中學(xué)習(xí)最優(yōu)的交互方式。這一領(lǐng)域在現(xiàn)代生活中有著廣泛的應(yīng)用,包括自動(dòng)駕駛、多機(jī)器人工廠、自動(dòng)化交易和能源網(wǎng)絡(luò)管理等。 本書是一部系統(tǒng)闡述多智能體強(qiáng)化學(xué)習(xí)理論與技術(shù)的權(quán)威著作,清晰而嚴(yán)謹(jǐn)?shù)亟榻B了MARL的模型、解決方案概念、算法思想、技術(shù)挑戰(zhàn)以及現(xiàn)代方法。書中首先介紹了該領(lǐng)域的基礎(chǔ)知識(shí),包括強(qiáng)化學(xué)習(xí)理論和算法的基礎(chǔ)、交互式博弈模型、博弈中的不同解決方案概念以及支撐MARL研究的算法思想。隨后,書中詳細(xì)介紹了利用深度學(xué)習(xí)技術(shù)的現(xiàn)代MARL算法,涵蓋集中訓(xùn)練與分散執(zhí)行、價(jià)值分解、參數(shù)共享和自博弈等思想。本書還附帶了一個(gè)用Python編寫的MARL代碼庫,其中包括自包含且易于閱讀的MARL算法實(shí)現(xiàn)。 本書技術(shù)內(nèi)容以易于理解的語言解釋,并通過大量示例進(jìn)行說明,既為初學(xué)者闡明了MARL的概念,也為專業(yè)的讀者提供了高層次的見解。
《多智能體強(qiáng)化學(xué)習(xí):基礎(chǔ)與現(xiàn)代方法》是多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域的權(quán)威之作,作者巧妙地將強(qiáng)化學(xué)習(xí)與博弈論相結(jié)合,為該領(lǐng)域的研究和應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。本書不僅適合初學(xué)者入門,更為成熟研究人員提供了深度洞察和真知灼見,是多智能體強(qiáng)化學(xué)習(xí)不可或缺的參考書。
譯 者 序多智能體強(qiáng)化學(xué)習(xí)(MARL)作為人工智能的一個(gè)新興研究領(lǐng)域,已經(jīng)在國際上積累了較為豐富的研究成果和實(shí)踐經(jīng)驗(yàn)。本書系統(tǒng)性地總結(jié)了MARL的研究脈絡(luò),在領(lǐng)域內(nèi)有較強(qiáng)的影響力。本書由Stefano V.Albrecht、Filippos Christianos和Lukas Schfer三位在多智能體系統(tǒng)和強(qiáng)化學(xué)習(xí)領(lǐng)域享有盛譽(yù)的專家共同撰寫。本書內(nèi)容主要分為兩部分:第一部分介紹MARL中的基本概念和基礎(chǔ)知識(shí);第二部分則介紹基于深度學(xué)習(xí)技術(shù)的前沿MARL研究。本書不僅涵蓋堅(jiān)實(shí)的理論基礎(chǔ),還在實(shí)踐層面展示了將復(fù)雜概念轉(zhuǎn)化為應(yīng)用方案的方法。通過具體的算法實(shí)踐,讀者可以加深對(duì)理論知識(shí)的理解。我們希望這本中文翻譯版可以給國內(nèi)讀者帶來閱讀的便利。得益于大語言模型的幫助,本書的翻譯效率得到了極大的提升。在翻譯過程中,我們也遇到了一些挑戰(zhàn),例如,某些術(shù)語尚無統(tǒng)一的中文翻譯,我們選擇了目前較為主流的翻譯,并在首次出現(xiàn)時(shí)標(biāo)注了其他可能的翻譯,以便讀者理解。此外,為了讓本書更加通俗易懂,我們在翻譯時(shí)特別注重語言的流暢性和表達(dá)的準(zhǔn)確性。我們力求將復(fù)雜的概念用簡潔明了的語言進(jìn)行解釋,同時(shí)保留原文的科學(xué)性和嚴(yán)謹(jǐn)性。在此,我們要特別感謝在本書翻譯過程中給予支持和幫助的所有老師和同學(xué)。他們的建議和指導(dǎo)使本書的翻譯更加準(zhǔn)確和完善。同時(shí),也要感謝機(jī)械工業(yè)出版社的支持,使得這本書的中文版得以順利出版。盡管我們在翻譯過程中力求準(zhǔn)確無誤,但由于時(shí)間和精力有限,書中難免存在疏漏之處。我們誠摯地歡迎讀者提出寶貴的批評(píng)和建議,以便我們在后續(xù)版本中不斷改進(jìn)和完善。前 言多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning,MARL)是一個(gè)多樣化且極為活躍的研究領(lǐng)域。隨著深度學(xué)習(xí)在2010年代中期被引入多智能體強(qiáng)化學(xué)習(xí),該領(lǐng)域的研究工作出現(xiàn)了爆炸式增長,F(xiàn)在,所有主要的人工智能和機(jī)器學(xué)習(xí)會(huì)議都會(huì)例行討論相關(guān)文章,比如開發(fā)新的多智能體強(qiáng)化學(xué)習(xí)算法或以某種方式應(yīng)用多智能體強(qiáng)化學(xué)習(xí)。這種急劇增長還體現(xiàn)在自那以后發(fā)表的越來越多的綜述論文中,我們在書末列出了許多這樣的論文。隨著這種增長,該領(lǐng)域顯然需要一本教科書來提供對(duì)多智能體強(qiáng)化學(xué)習(xí)的原則性介紹。本書部分基于并在很大程度上遵循了Stefano V.Albrecht和Peter Stone在2017年澳大利亞墨爾本舉行的國際人工智能聯(lián)合會(huì)議(International Joint Conference on Artificial Intelligence,IJCAI)上所做的“Multiagent Learning:Foundations and Recent Trends”報(bào)告的結(jié)構(gòu)。本書的寫作目的是對(duì)多智能體強(qiáng)化學(xué)習(xí)中的模型、求解、算法思想和技術(shù)挑戰(zhàn)進(jìn)行基本介紹,并描述將深度學(xué)習(xí)技術(shù)整合進(jìn)多智能體強(qiáng)化學(xué)習(xí)以產(chǎn)生強(qiáng)大新算法的現(xiàn)代方法。從本質(zhì)上講,我們認(rèn)為本書所涵蓋的材料應(yīng)該為每一位從事多智能體強(qiáng)化學(xué)習(xí)的研究人員所了解。此外,本書還旨在為研究人員和從業(yè)人員使用MARL算法提供實(shí)用指導(dǎo)。為此,本書附帶了用Python編程語言編寫的代碼庫,其中包含本書討論的幾種多智能體強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)。代碼庫的主要目的是提供自成一體且易于閱讀的算法代碼,以幫助讀者理解。本書假定讀者具有本科水平的基礎(chǔ)數(shù)學(xué)背景,包括統(tǒng)計(jì)學(xué)、概率論、線性代數(shù)和微積分。此外,為了理解和使用代碼庫,讀者需要熟悉基本的編程概念。通常,我們建議按順序閱讀本書的各個(gè)章節(jié)。對(duì)于不熟悉強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的讀者,我們將在第2章、第7章和第8章分別介紹相關(guān)基礎(chǔ)知識(shí)。對(duì)于已經(jīng)熟悉強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的讀者,如果想快速開始學(xué)習(xí)基于深度學(xué)習(xí)的最新多智能體強(qiáng)化學(xué)習(xí)算法,那么可以先閱讀第3章,然后跳到第9章及以后的章節(jié)。為了幫助教師采用本書,我們制作了講義幻燈片(可從本書網(wǎng)站獲。瑑(nèi)容可根據(jù)課程需要進(jìn)行修改。多智能體強(qiáng)化學(xué)習(xí)已成為一個(gè)龐大的研究領(lǐng)域,本書并未涵蓋其所有方面。例如,關(guān)于在多智能體強(qiáng)化學(xué)習(xí)中使用通信的研究日益增多,但本書并未涉及。這方面的研究問題包括:當(dāng)通信信道嘈雜、不可靠時(shí),智能體如何學(xué)會(huì)穩(wěn)健地進(jìn)行通信;智能體如何利用多智能體強(qiáng)化學(xué)習(xí)來學(xué)習(xí)針對(duì)特定任務(wù)的專用通信協(xié)議或語言。雖然本書的重點(diǎn)不是多智能體強(qiáng)化學(xué)習(xí)中的通信,但本書介紹的模型具有足夠的通用性,也可以表示通信行為(如3.5節(jié)所述)。此外,還有關(guān)于將演化博弈論用于多智能體學(xué)習(xí)的研究,在本書中也沒有涉及(我們推薦Bloembergen等人于2015年發(fā)表的優(yōu)秀綜述)。最后,隨著近年來多智能體強(qiáng)化學(xué)習(xí)研究工作的急劇增加,試圖編寫一本跟上新算法的書籍是徒勞的。因此,我們將重點(diǎn)放在多智能體強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念和思想上,并參考研究綜述論文(書末),以獲知更完整的算法發(fā)展歷程。致謝:我們非常感謝在本書撰寫過程中許多與我們合作或提供反饋意見的人。在這里,特別感謝MIT出版社的Elizabeth Swayze和Matthew Valades,他們在出版過程中給予了我們悉心的指導(dǎo)。許多同事也為我們提供了寶貴的反饋意見和建議,我們在此一并表示感謝(按姓氏字母順序排列):Christopher Amato、Marina Aoyama、Ignacio Carlucho、Georgios Chalkiadakis、Sam Dauncey、Alex Davey、Bertrand Decoster、Mhairi Dunion、Kousha Etessami、Aris Filos-Ratsikas、Elliot Fosong、Amy Greenwald、Dongge Han、Josiah Hanna、Leonard Hinckeldey、Sarah Keren、Mykel Kochenderfer、Marc Lanctot、Stefanos Leonardos、Michael Littman、Luke Marris、Elle McFarlane、Trevor McInroe、Mahdi Kazemi Moghaddam、Frans Oliehoek、Georgios Papoudakis、Tabish Rashid、Michael Rovatsos、Rahat Santosh、Raul Steleac、Massimiliano Tamborski、Kale-ab Tessera、Callum Tilbury、Jeroen van Riel、Zhu Zheng。我們還要感謝為MIT出版社審閱本書的匿名審稿人。圖2.3中的火星探測車的馬爾可夫決策過程(Markov Decision Process,MDP)基于Elliot Fosong和Adam Jelley為愛丁堡大學(xué)強(qiáng)化學(xué)習(xí)課程創(chuàng)建的類似的馬爾可夫決策過程。圖4.4和圖4.5b中的圖像是Mahdi Kazemi Moghaddam為本書制作的。我們非常感謝Karl Tuyls在2023年智能體及多智能體系統(tǒng)(Autonomous Agents and Multi-Agent Systems,AAMAS)國際會(huì)議上發(fā)表的主旨演講中宣布了本書的出版?闭`:盡管我們盡了最大努力,但仍可能有一些錯(cuò)字或不準(zhǔn)確之處未被注意到。如果發(fā)現(xiàn)任何錯(cuò)誤,請(qǐng)通過電子郵件issues@marl-book.com向我們告知,我們將不勝感激。本書網(wǎng)站、代碼庫和幻燈片:本書的完整PDF版本以及附帶資料(包括代碼庫和講義幻燈片)的鏈接可在本書網(wǎng)站上找到:www.marl-book.com。
斯特凡諾·V. 阿爾布萊希特(Stefano V. Albrecht)愛丁堡大學(xué)信息學(xué)院人工智能專業(yè)副教授,并擔(dān)任該校自主智能體研究組負(fù)責(zé)人,同時(shí)是英國皇家工程院工業(yè)研究員、阿蘭·圖靈研究所多智能體系統(tǒng)研究團(tuán)隊(duì)領(lǐng)軍學(xué)者。他的研究聚焦自主智能體、多智能體系統(tǒng)、強(qiáng)化學(xué)習(xí)和博弈論領(lǐng)域,核心方向是不確定情況下的序貫決策。菲利波斯·克里斯蒂安諾斯(Filippos Christianos)多智能體深度強(qiáng)化學(xué)習(xí)領(lǐng)域的研究科學(xué)家,主要研究如何高效地使用MARL算法。他編寫了多個(gè)流行的MARL代碼庫。盧卡斯·舍費(fèi)爾(Lukas Sch?fer)多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域的一位資深研究人員,專注于利用深度強(qiáng)化學(xué)習(xí)完成更具通用性、魯棒性和樣本效率的決策制定。
目 錄譯者序前言符號(hào)總覽第1章 引言1 1.1 多智能體系統(tǒng)1 1.2 多智能體強(qiáng)化學(xué)習(xí)4 1.3 應(yīng)用示例61.3.1 多機(jī)器人倉庫管理61.3.2 棋盤游戲和電子游戲中的競爭性對(duì)戰(zhàn)71.3.3 自動(dòng)駕駛71.3.4 電子市場中的自動(dòng)化交易7 1.4 多智能體強(qiáng)化學(xué)習(xí)的挑戰(zhàn)8 1.5 多智能體強(qiáng)化學(xué)習(xí)的議題9 1.6 本書內(nèi)容和結(jié)構(gòu)10第一部分 多智能體強(qiáng)化學(xué)習(xí)的基礎(chǔ)第2章 強(qiáng)化學(xué)習(xí)12 2.1 一般定義12 2.2 馬爾可夫決策過程14 2.3 期望折扣回報(bào)和最優(yōu)策略16 2.4 價(jià)值函數(shù)與貝爾曼方程17 2.5 動(dòng)態(tài)規(guī)劃18 2.6 時(shí)序差分學(xué)習(xí)21 2.7 學(xué)習(xí)曲線評(píng)估23 2.8 R(s,a,s′)和R(s,a)的等價(jià)性26 2.9 總結(jié)27第3章 博弈:多智能體交互模型28 3.1 標(biāo)準(zhǔn)式博弈29 3.2 重復(fù)標(biāo)準(zhǔn)式博弈30 3.3 隨機(jī)博弈31 3.4 部分可觀測隨機(jī)博弈33 3.5 建模通信35 3.6 博弈中的知識(shí)假設(shè)36 3.7 詞典:強(qiáng)化學(xué)習(xí)與博弈論37 3.8 總結(jié)38第4章 博弈的解概念40 4.1 聯(lián)合策略與期望回報(bào)41 4.2 最佳響應(yīng)42 4.3 極小極大算法43 4.4 納什均衡44 4.5 -納什均衡46 4.6。ù郑┫嚓P(guān)均衡47 4.7 均衡解的概念局限性49 4.8 帕雷托最優(yōu)50 4.9 社會(huì)福利和公平51 4.10 無悔53 4.11 均衡計(jì)算的復(fù)雜性544.11.1 PPAD復(fù)雜性類554.11.2 計(jì)算-納什均衡是PPAD-完全問題56 4.12 總結(jié)57第5章 博弈中的多智能體強(qiáng)化學(xué)習(xí):第一步與挑戰(zhàn)58 5.1 一般學(xué)習(xí)過程58 5.2 收斂類型60 5.3 單智能體強(qiáng)化學(xué)習(xí)的簡化625.3.1 中心學(xué)習(xí)625.3.2 獨(dú)立學(xué)習(xí)635.3.3 示例:基于等級(jí)的搜尋65 5.4 多智能體強(qiáng)化學(xué)習(xí)的挑戰(zhàn)665.4.1 非平穩(wěn)性675.4.2 均衡選擇685.4.3 多智能體信用分配695.4.4 擴(kuò)展到多個(gè)智能體71 5.5 智能體使用哪些算法715.5.1 自博弈725.5.2 混合博弈72 5.6 總結(jié)73第6章 多智能體強(qiáng)化學(xué)習(xí):基礎(chǔ)算法75 6.1 博弈的動(dòng)態(tài)規(guī)劃:價(jià)值迭代75 6.2 博弈中的時(shí)序差分:聯(lián)合動(dòng)作學(xué)習(xí)776.2.1 極小極大Q學(xué)習(xí)796.2.2 納什Q學(xué)習(xí)806.2.3 相關(guān)Q學(xué)習(xí)816.2.4 聯(lián)合動(dòng)作學(xué)習(xí)的局限性81 6.3 智能體建模826.3.1 虛擬博弈836.3.2 智能體建模的聯(lián)合動(dòng)作學(xué)習(xí)856.3.3 貝葉斯學(xué)習(xí)與信息價(jià)值87 6.4 基于策略的學(xué)習(xí)926.4.1 期望獎(jiǎng)勵(lì)中的梯度上升926.4.2 無窮小梯度上升的學(xué)習(xí)動(dòng)態(tài)936.4.3 贏或快速學(xué)習(xí)946.4.4 用策略爬山算法實(shí)現(xiàn)贏或快速學(xué)習(xí)966.4.5 廣義無窮小梯度上升98 6.5 無悔學(xué)習(xí)996.5.1 無條件與有條件的遺憾匹配996.5.2 遺憾匹配的收斂性100 6.6 總結(jié)103第二部分 多智能體深度強(qiáng)化學(xué)習(xí):算法與實(shí)踐第7章 深度學(xué)習(xí)106 7.1 強(qiáng)化學(xué)習(xí)的函數(shù)逼近106 7.2 線性函數(shù)逼近107 7.3 前饋神經(jīng)網(wǎng)絡(luò)1087.3.1 神經(jīng)元1097.3.2 激活函數(shù)1097.3.3 由層和單元構(gòu)成網(wǎng)絡(luò)110 7.4 基于梯度的優(yōu)化1117.4.1 損失函數(shù)1117.4.2 梯度下降1127.4.3 反向傳播114 7.5 卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)1147.5.1 從圖像中學(xué)習(xí)——利用數(shù)據(jù)中的空間關(guān)系1157.5.2 利用記憶從序列中學(xué)習(xí)116 7.6 總結(jié)117第8章 深度強(qiáng)化學(xué)習(xí)119 8.1 深度價(jià)值函數(shù)逼近1198.1.1 深度Q學(xué)習(xí)——可能出現(xiàn)什么問題1208.1.2 目標(biāo)值變動(dòng)問題1218.1.3 打破相關(guān)性1238.1.4 匯總:深度Q網(wǎng)絡(luò)1248.1.5 超越深度Q網(wǎng)絡(luò)126 8.2 策略梯度算法1268.2.1 學(xué)習(xí)策略的優(yōu)勢1278.2.2 策略梯度定理1288.2.3 REINFORCE:蒙特卡羅策略梯度1298.2.4 演員-評(píng)論家算法1318.2.5 A2C:優(yōu)勢演員-評(píng)論家1328.2.6 近端策略優(yōu)化1348.2.7 策略梯度算法在實(shí)踐中的應(yīng)用1358.2.8 策略的并行訓(xùn)練136 8.3 實(shí)踐中的觀測、狀態(tài)和歷史記錄139 8.4 總結(jié)140第9章 多智能體深度強(qiáng)化學(xué)習(xí)142 9.1 訓(xùn)練和執(zhí)行模式1429.1.1 集中式訓(xùn)練和執(zhí)行1439.1.2 分散式訓(xùn)練和執(zhí)行1439.1.3 集中式訓(xùn)練與分散式執(zhí)行144 9.2 多智能體深度強(qiáng)化學(xué)習(xí)的符號(hào)表示144 9.3 獨(dú)立學(xué)習(xí)1459.3.1 基于獨(dú)立價(jià)值的學(xué)習(xí)1459.3.2 獨(dú)立策略梯度方法1469.3.3 示例:大型任務(wù)中的深度獨(dú)立學(xué)習(xí)149 9.4 多智能體策略梯度算法1509.4.1 多智能體策略梯度定理1509.4.2 集中式評(píng)論家1519.4.3 集中式動(dòng)作-價(jià)值評(píng)論家1539.4.4 反事實(shí)動(dòng)作-價(jià)值估計(jì)1549.4.5 使用集中式動(dòng)作-價(jià)值評(píng)論家的均衡選擇155 9.5 共享獎(jiǎng)勵(lì)博弈中的價(jià)值分解1579.5.1 個(gè)體-全局-最大化性質(zhì)1599.5.2 線性價(jià)值分解1599.5.3 單調(diào)價(jià)值分解1629.5.4 實(shí)踐中的價(jià)值分解1669.5.5 超越單調(diào)價(jià)值分解170 9.6 使用神經(jīng)網(wǎng)絡(luò)的智能體建模1739.6.1 用深度智能體模型進(jìn)行聯(lián)合動(dòng)作學(xué)習(xí)1739.6.2 學(xué)習(xí)智能體策略的表示176 9.7 具有同質(zhì)智能體的環(huán)境1789.7.1 參數(shù)共享1799.7.2 經(jīng)驗(yàn)共享180 9.8 零和博弈中的策略自博弈1829.8.1 蒙特卡羅樹搜索1839.8.2 自博弈蒙特卡羅樹搜索1869.8.3 帶有深度神經(jīng)網(wǎng)絡(luò)的自博弈MCTS:AlphaZero187 9.9 基于種群的訓(xùn)練1889.9.1 策略空間響應(yīng)預(yù)言家1899.9.2 PSRO的收斂性1929.9.3 《星際爭霸Ⅱ》中的宗師級(jí)別:AlphaStar194 9.10 總結(jié)196第10章 實(shí)踐中的多智能體深度強(qiáng)化學(xué)習(xí)198 10.1 智能體環(huán)境接口198 10.2 PyTorch中的多智能體強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)19910.2.1 無縫參數(shù)共享實(shí)現(xiàn)20110.2.2 定義模型:IDQN的一個(gè)示例201 10.3 集中式價(jià)值函數(shù)203 10.4 價(jià)值分解204 10.5 多智能體強(qiáng)化學(xué)習(xí)算法的實(shí)用技巧20510.5.1 堆疊時(shí)間步與循環(huán)網(wǎng)絡(luò)20510.5.2 標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)20510.5.3 集中式優(yōu)化206 10.6 實(shí)驗(yàn)結(jié)果的展示20610.6.1 學(xué)習(xí)曲線20610.6.2 超參數(shù)搜索207第11章 多智能體環(huán)境209 11.1 選擇環(huán)境的標(biāo)準(zhǔn)209 11.2 結(jié)構(gòu)不同的2×2矩陣博弈21011.2.1 無沖突博弈21011.2.2 沖突博弈211 11.3 復(fù)雜環(huán)境21211.3.1 基于等級(jí)的搜尋21311.3.2 多智能體粒子環(huán)境21411.3.3 星際爭霸多智能體挑戰(zhàn)21511.3.4 多機(jī)器人倉庫21611.3.5 谷歌足球21711.3.6 《花火》21711.3.7 《胡鬧廚房》218 11.4 環(huán)境集合21811.4.1 熔爐21911.4.2 OpenSpiel21911.4.3 Petting Zoo220多智能體強(qiáng)化學(xué)習(xí)研究綜述221參 考 文 獻(xiàn)224