![]() ![]() |
控制系統(tǒng)與強化學習 [美]肖恩·梅恩 ![]()
一個高中生可以創(chuàng)建深度的Q-learning代碼來控制她的機器人,卻不了解 "深度 "或 "Q "的含義,也不知道為什么代碼有時會失敗。本書旨在以具有微積分和矩陣代數(shù)背景的學生可以理解的方式,解釋強化學習和優(yōu)化控制背后的科學。本書的一個獨特重點是算法設(shè)計,以獲得學習算法的快收斂速度,以及對強化學習有時失敗的原因的洞察。一開始就避開了高級隨機過程理論,用更直觀的確定性探測來代替學習的隨機探索。一旦理解了這些思想,掌握植根于隨機控制的技術(shù)就不難了。這些主題在本書的第二部分有所涉及,從馬爾科夫鏈理論開始,以對強化學習的行為者批評方法的全新審視結(jié)束。
本書旨在以一種易于理解的方式解釋強化學習和最優(yōu)控制背后的科學,讀者只需要具有微積分和矩陣代數(shù)背景即可。本書的獨特之處在于通過算法設(shè)計來獲得學習算法最快收斂速度,以及對為什么強化學習有時會失敗的洞見。本書通過使用更直觀的確定性探索代替隨機探索進行學習,從一開始就避免了高級隨機過程理論。一旦讀者理解了這些思想,就不難掌握植根于隨機控制的技術(shù)。本書共分為兩部分:第一部分介紹無噪聲情況下的基礎(chǔ)知識;第二部分介紹強化學習與隨機控制。本書適合控制相關(guān)專業(yè)研究生、高年級本科生,以及對控制工程和強化學習感興趣的工程師閱讀。
譯 者 序由于之前我在機械工業(yè)出版社翻譯的兩本英文書都已出版了,合作比較順利,因此在編輯老師聯(lián)系我翻譯這本書時,我就欣然接受了,這將是我翻譯的第三本關(guān)于自動控制理論、自動化技術(shù)的書。下面我就談談此次翻譯過程中的一些認識和體會,希望對讀者理解書中的內(nèi)容能有所幫助。本書的主題非常好,講解也詳略得當、通俗易懂,既體現(xiàn)了作者的真知灼見,又能夠讓讀者通過清晰的語言表述、豐富的示例、習題和注記了解相關(guān)內(nèi)容與事件的來龍去脈。本書共有10章,分為兩部分,第一部分(第1~5章)是關(guān)于無噪聲情況或者確定性情況下的基礎(chǔ)知識的;第二部分(第6~10章)是關(guān)于含有噪聲或者隨機過程的學習控制主題的。具體來說,第一部分簡要講述確定性控制系統(tǒng)相關(guān)內(nèi)容,如控制的基本問題、最優(yōu)控制及其優(yōu)化算法設(shè)計以及價值函數(shù)近似等,特別是對何為控制問題、控制理論到強化學習的演化關(guān)系、期望和方差的現(xiàn)實意義、優(yōu)化算法設(shè)計以及價值函數(shù)近似等問題的闡述,別具特色,具有很強的啟發(fā)意義。第二部分講述存在噪聲或者處于某類馬爾可夫鏈描述情況下的隨機系統(tǒng)優(yōu)化設(shè)計問題,主要包括馬爾可夫鏈的相關(guān)知識、基于馬爾可夫決策過程的隨機控制、隨機近似基礎(chǔ)知識、用于隨機優(yōu)化的幾類時間差分算法以及演員-評論家算法及其架構(gòu)等內(nèi)容,其中對于Watkins的Q學習、LQG、QSA、ZAP隨機近似以及隨機控制與強化學習之間的關(guān)系演化等內(nèi)容的闡述也很有見地,令人耳目一新。此外,本書對控制系統(tǒng)舞臺設(shè)計的演員-評論家算法架構(gòu)的闡述也非常生動形象,展現(xiàn)出了自然系統(tǒng)和人文生活系統(tǒng)和諧地構(gòu)成天然的信息物理交互系統(tǒng)的圖景。這對于理解各種算法的由來以及功能大有裨益?刂葡到y(tǒng)本身也是一類系統(tǒng),更多強調(diào)的是如何協(xié)同或協(xié)調(diào)各要素之間的關(guān)系,以使得所設(shè)計的系統(tǒng)滿足預期的設(shè)定要求。這一點與生產(chǎn)力的本意相似,生產(chǎn)力是通過生產(chǎn)要素的組合運用提供產(chǎn)品和服務的能力。協(xié)調(diào)各要素之間的關(guān)系涉及要素變量的選取和甄別、不同要素之間的權(quán)重組合以及這些組合的適應性和可擴展性等。擴大應用先進和新型生產(chǎn)要素是控制系統(tǒng)持續(xù)健康發(fā)展的動力之源,只有進一步提高全要素生產(chǎn)率,建立起更高水平、更可持續(xù)的產(chǎn)業(yè)競爭新優(yōu)勢,才能創(chuàng)造出更多控制策略或智能算法。如果僅基于對穩(wěn)定性的分析考慮控制系統(tǒng),那么該主題屬于經(jīng)典控制理論范疇(包括頻域法和時域法的基礎(chǔ)理論);如果再增加相應的控制性能指標和實時性,就發(fā)展成了解決較復雜過程的高級控制理論和技術(shù);再考慮環(huán)境和對象模型的雙邊不確定性,特別是對象規(guī)模、性能指標和邊界約束的增加,就使得控制策略從定常到時變、從魯棒到自適應、從固定策略到學習策略、從最優(yōu)到近似最優(yōu)、從單一情境到復雜多情境的再生等,這一切既體現(xiàn)了認知的與時俱進、解決時代問題的前沿性,也體現(xiàn)了控制理論從物理底層的局部回路調(diào)節(jié)演化到與應用層和管理層通過網(wǎng)絡(luò)層實現(xiàn)半全局乃至全局的統(tǒng)籌規(guī)劃和運籌帷幄,是逐漸從“硬件在回路”向“算法在回路”和“人在回路”的策略轉(zhuǎn)變,更加體現(xiàn)了人的能動性在整個控制系統(tǒng)或管理系統(tǒng)中的作用?刂婆c學習的發(fā)展是隨著研究對象的變化而變化的,經(jīng)典的控制僅利用對象模型自身相關(guān)的確定信息來組成要素調(diào)節(jié)策略,而學習不僅要利用與對象自身相關(guān)的確定信息,還要在設(shè)計的預期目標中考慮某些人為因素的投影,在適應性和處理不確定性方面具有更大的自由度,從而能夠?qū)⑦@種學習模式遷移出去,體現(xiàn)出一種嵌入的能動性或使能性。以上這些是我對控制系統(tǒng)與強化學習這個主題的一些認識和理解,希望能為閱讀本書的讀者提供一個不一樣的“入門體驗”。本書的翻譯分工如下:王秋富負責第1~5章以及前言和附錄的翻譯,葛伊陽負責第6~10章的翻譯,王占山負責對全書譯文進行審校?紤]到譯者在控制系統(tǒng),特別是強化學習方面的知識有限,以及原著語境口語化的特點,書中的翻譯可能存在紕漏和不足之處,敬請讀者批評指正。此外,感謝機械工業(yè)出版社編輯的及時溝通和努力合作,以及東北大學劉秀翀博士在我的討論班上對控制科學、智能科學以及哲學等方面給出的中肯見解和意見。王占山2024年8月于東北大學南湖校區(qū)前言在2020年春季學期,筆者正在教授隨機控制課程,該課程的最后幾周通常專注于強化學習(RL)主題。整個學期,筆者都在思考今年晚些時候要開設(shè)的強化學習專題課程:計劃在巴黎和柏林開設(shè)的兩個夏季課程,以及作為Simons(西蒙斯)研究所強化學習項目的一部分安排的另一門課程。2020年秋季課程的視頻和幻燈片現(xiàn)已公布在https://simons.berkeley.edu/programs/rl20網(wǎng)站上。DPLP即dynamic programming linear programming,動態(tài)規(guī)劃的線性規(guī)劃!g者注春季學期結(jié)束后不久,筆者收到了劍橋大學出版社編輯Diana Gillooly的郵件。她寫道:“有人提到你計劃講授關(guān)于強化學習的課程”,并問筆者是否有興趣寫一本關(guān)于這個主題的書。正是她這封簡短的電子郵件推動了本書的誕生。當然,本書的歷史其實更加悠久——本書是筆者結(jié)合十多年來準備的講義,以及更長時間以來積累的零散資料而最終寫成的。此外,筆者向Simons研究所RL項目的聯(lián)合組織者承諾,筆者將為初學者提供一門不需要大量數(shù)學背景的速成課程。筆者也保證,要寫一本面向高年級本科生和研究生的可讀性較強的書。疫情引發(fā)了筆者的這些思考,使筆者覺得有必要闡明兩個主題:(i)在控制系統(tǒng)文獻中,有動態(tài)規(guī)劃技術(shù)可以近似強化學習中出現(xiàn)的Q函數(shù)。特別是,這個“價值函數(shù)”是一個簡單凸規(guī)劃的解(一個例子就是式(3.36)中闡釋的“DPLP”)。強化學習中的許多算法都是為近似相同的函數(shù)而設(shè)計的,但都是基于求根問題,除了一些非常特殊的情況外,這些問題往往難以被充分理解。這只是需要在控制和RL之間建立更好的溝通橋梁的一個例子。筆者不能聲稱這座橋已經(jīng)完全建成,但筆者希望這本書能夠基于不同學科的見解為未來的研究發(fā)現(xiàn)提供線索。(ii)隨機近似(SA)是分析遞歸算法最常用的方法。這種方法通常被稱為常微分方程(ODE)方法\[136,229,301,357\]。在沃特金斯(Watkins)引入Q學習\[169,352\]后不久,人們認識到了RL和SA之間的關(guān)系。在過去的十年里,用于分析優(yōu)化算法的ODE方法變得越來越復雜\[198,318,335,375\]。相關(guān)的ODE方法是統(tǒng)計力學、遺傳學、流行病學(例如SIR模型)甚至投票的標準建?蚣艿囊徊糠謀[24,122,225,276\]。本書將采用反向的敘述方式:書中的每個算法都從一個理想的ODE開始,它被視為算法設(shè)計的“第一步”,而不是簡單地將ODE視為一種分析工具。筆者相信這為算法綜合和分析提供了更好的見解。然而,使用SA來證明這種方法的合理性是高度技術(shù)性的,特別地,最近的學位論文和相關(guān)著述\[107,110\](建立在類似的敘述之上)對隨機過程理論的應用背景進行了假設(shè)。在本書中,我們正式宣稱:只要你愿意使用正弦曲線或其他確定性探測信號而不是隨機過程,隨機近似就沒有本質(zhì)上的隨機性。第4章和第5章所研究的ODE方法就沒有提及概率論。這是筆者的第三本書,和前兩本書一樣,筆者也是基于新的發(fā)現(xiàn)才寫成這本書的。在研究主題(i)時,筆者和同事Prashant Mehta發(fā)現(xiàn),通過借鑒目前流行的批處理RL概念,凸Q學習可以變得更加實用。這個發(fā)現(xiàn)促使筆者開始研究新的課題\[246,247\]以及開展與Gergely Neu的新合作。你們會在第3章和第5章中找到這些論文的文本和方程。第4章主要討論ODE方法和準隨機近似方面的內(nèi)容,該章建立在文獻\[40,41\]的基礎(chǔ)之上。在2020年夏天,筆者將所有這些材料整合起來,并就這些算法的收斂性和收斂速率創(chuàng)建了一個完整的理論,以更好地理解這些算法在RL的無梯度優(yōu)化和策略梯度技術(shù)中的應用\[8587\]。本書的第二部分涉及Q學習的Zap Zero(快速調(diào)零),以及對演員-評論家方法收斂速度的深刻見解等內(nèi)容。每章末的“注記”概述了各章主要結(jié)論的起源。許多剛接觸強化學習的人可能會失望地發(fā)現(xiàn),本書中的理論和算法與大眾媒體描繪的“美好景象”相距甚遠:強化學習通常被描述為一個在物理環(huán)境中互動的“智能體”,并隨著經(jīng)驗的積累而趨于成熟。不幸的是,考慮到當今的技術(shù)水平,除了在線廣告等非常特殊的場景外,“從零開始進行控制”的過程不太可能成功。但是本書的基調(diào)完全不同:我們提出了一個最優(yōu)控制問題,并展示了如何在設(shè)計探索策略和調(diào)整規(guī)則的基礎(chǔ)上獲得近似解。這不是筆者的怪癖,而是一種有嚴格要求的、被廣泛接受的方法,可以推導出強化學習的所有標準方法。特別是沃特金斯的Q學習算法及其擴展被設(shè)計用于求解或近似20世紀50年代引入的“動態(tài)規(guī)劃”方程。這個領(lǐng)域還很年輕,它的未來可能就像你在讀這篇前言之前所設(shè)想的那樣。希望在不久的將來,我們能發(fā)現(xiàn)RL的新范式,也許我們可以從智慧生物那里獲得靈感,而不是從20世紀的最優(yōu)方程中獲得靈感。筆者相信,如果沒有最優(yōu)控制范式的束縛,本書提及的基本原理在未來仍將很有價值!致謝一切要從30年前說起。20世紀90年代中期,筆者(象征性地)中了彩票:一筆Fulbright獎學金。我?guī)е,包括我年幼的女兒Sydney和Sophie,來到了印度的班加羅爾。與Vivek Borkar在印度科學研究所(IISc)工作的9個月是我們富有成效的合作和長期友誼的開始。本書后半部分的幾乎每一頁的文字背后都有Vivek的影響和參與。當Ben Van Roy在麻省理工學院(MIT)完成他的學位論文研究時,筆者也有幸與他進行了互動。他和John Tsitsiklis的合作絕對是一項壯舉,本書的許多方面都借鑒了他早期的強化學習(RL)研究。他目前的研究也可能會產(chǎn)生類似的長期影響。Prashant Mehta曾對筆者說:“我知道你是怎么做到的了!你周圍都是了不起的人!”了不起是對的,而他就處在了不起的最頂端。本書是與Vivek、Prashant和許多其他人(包括Ana BuiBui!、KenDuffy、PeterGlynn、IoannisKontoyiannis、EricMoulines),以及聯(lián)合技術(shù)研究中心的許多老朋友(包括AmitSurana和GeorgeMathew)合作的產(chǎn)物。筆者的博士指導老師PeterCaines是筆者的第一位同事,也是筆者目前所遇到過的最好的同事之一,他熱情地支持筆者的馬爾可夫鏈理論研究,這為筆者在澳大利亞國立大學攻讀博士后期間與RichardTweedie的合作奠定了基礎(chǔ)。這些人都很了不起,所有人都會認同這一點!對筆者的研究產(chǎn)生影響的一位優(yōu)秀青年學者是ShuhangChen,他是文獻[88](關(guān)于更精細ODE方法的論文)的主要作者。非常感謝在讀研究生FanLu對本書早期草稿提出的意見和在數(shù)值實驗方面提供的幫助。PrabirBarooah幫助筆者從伊利諾伊大學遷至佛羅里達大學生活。筆者從與其互動以及與他的學生(包括NarenRaman和AustinCoffman)的互動中受益匪淺。MaxRaginsky幫助筆者收集和整理了一些筆者平時不太關(guān)注的文獻。他的建議以及Polyak最近的論文[136]幫助我了解了蘇聯(lián)學者在RL和SA方面的早期貢獻。MaxRaginsky的研究也給了筆者靈感:雖然本書中的許多地方都有對他研究成果的引用,但他的這些研究成果中的大部分內(nèi)容都更適用于學術(shù)專著。第2章和第3章的大部分內(nèi)容都是基于伊利諾伊大學決策與控制實驗室開設(shè)的狀態(tài)空間控制課程寫成的。非常感謝BillPerkins、TamerBasar和MaxRaginsky,感謝他們允許筆者使用文獻[29]中的相關(guān)材料,還要感謝負責創(chuàng)新控制實驗設(shè)計的實驗室主任DanielBlock。2018年,筆者有幸在美國國家可再生能源實驗室(NREL)度過了幾個月,在自主能源系統(tǒng)實驗室進行了研究。這些交流的一個成果就是促使筆者開展有關(guān)隨機近似的研究,并發(fā)表了多篇文章[40,41,85-87,93]。如果沒有在NREL與AndreyBernstein、MarcelloColombino、EmilianoDallAnese以及筆者以前的研究生YueChen的合作,就不會有現(xiàn)在的這本書。在回顧第4章關(guān)于極值搜索控制的文獻時,筆者對研究文獻中普遍認為這一想法始于20世紀20年代的說法持懷疑態(tài)度。這段歷史中最令人信服的案例是在文獻[348]中提出的。筆者聯(lián)系了合著者IvenMareels,他向筆者保證了這段歷史的準確性。然后,在法國同事的幫助下,筆者找到并翻譯了1922年的文獻[217],該文獻被認為是這種優(yōu)化技術(shù)的來源。FrankLewis是RL和控制理論交叉領(lǐng)域最偉大的“橋梁建設(shè)者”之一,他主導了關(guān)于這些主題的幾本論文集的創(chuàng)作。10年前,當他想到筆者并促成投稿時[165],筆者感到很驚訝,而10年后他邀請筆者為新書投稿時[110],筆者非常高興地接受了。直到最近,筆者一直認為RL是一種愛好,是復雜系統(tǒng)(如網(wǎng)絡(luò)[254])簡化模型的動力,也是教授控制理論的工具。隨著AdithyaDevraj來到佛羅里達大學,筆者的認識發(fā)生了變化,他和筆者一起攻讀研究生,直到2020年春畢業(yè)后他去了斯坦福大學。他的好奇心和智慧在很多方面都給了我靈感,尤其是驅(qū)使筆者更多地了解了RL在過去十年中的演變。本書第二部分的許多數(shù)據(jù)和理論都來源于他的學位論文[107],他還對本書中許多部分提出了改進建議。筆者欠西蒙斯學院一筆很大的人情。2018年春天,筆者作為實時決策項目的長期訪問學者,有幸與AnaBui!和AdithyaDevraj開展合作。我們從其他的訪問學者和PeterBartlett(以及其他當?shù)貙W者)那里學到了很多。我們當時的討論推動了2020年的RL項目,該項目Ⅸ 提供了一個關(guān)于該主題各個方面的大型速成課程,并著重強調(diào)了筆者試圖通過本書進行探討的那種橋梁建設(shè)。2020年秋天,就在完成關(guān)于這個主題的第10章之前,筆者觀看了關(guān)于最近演員-評論家技巧的教程。本書受益于GergelyNeu、CiaraPikeBurke以及CsabaSzepesvri組織的強化學習虛擬研討會系列,該系列也受到了西蒙斯2020年RL項目的啟發(fā);氐浆F(xiàn)在:2021年春天,筆者在本書第一部分的基礎(chǔ)上開設(shè)了一門新課程。許多學生都渴望參與控制系統(tǒng)和RL的簡易入門學習,好在這些學生都挺過了困難重重的三個月。筆者很感激這學期收到的所有反饋,并且會盡力做出回應。感謝ArielleStevens,他糾正了前三章中許多表述不清晰的段落,并提出使用灰色方框來突出重要的概念。為了回應其他學生(包括CalebBowyer、BoChen、AustinCoffman、ChetanDhulipalla、WeihanShen、ZetongXuan、KeiTaiYu和YongxuZhang)的意見,我們做出了更多改進。這份名單上還有最近畢業(yè)的BobMoye博士以及與筆者一起進行RL和相關(guān)課題研究的在讀研究生:MarioBaquedanoAguilar、CaioLauand和AminMoradi。2021年8月在Twitter(現(xiàn)X)上發(fā)布草稿后不久,筆者還收到了在讀博士生VektorDewanto的大量反饋。當然,筆者不會忘記自己的資助者。美國空軍科學研究辦公室(AFOSR)的BobBonneau資助了筆者和PrashantMehta在Q學習、平均場博弈和非線性濾波方面的早期研究。美國陸軍研究辦公室的DeryaCansever和PurushIyer資助了更多相關(guān)主題的研究。美國國家科學基金會(NSF)資助了筆者最抽象、看似毫無價值的一些研究課題,希望這些課題能帶來一些有價值的東西。筆者在NSF最可靠的盟友是Radhakisan(Kishan)Baheti,他為筆者的第一筆資助提供了資金(開始于20世紀90年代初的自適應控制課題)。Baheti是一位出色的導師,他始終對潛在的愚蠢想法保持著警覺,同時也懂得如何從那些新的、看似無用的研究方向中獲得啟發(fā)。他知道控制界中的每個人都在做什么!他還通過他的馬拉松長跑以及對瑜伽的精通激勵著我們所有人。肖恩·梅恩2021年8月1日
肖恩·梅恩(Sean Meyn) 佛羅里達大學電氣與計算機工程系教授、Robert C. Pittman杰出學者講席教授。他因?qū)﹄S機過程及其應用的研究而聞名。他與R. L. Tweedie合著的獲獎專著Markov Chains and Stochastic Stability現(xiàn)在是該領(lǐng)域的標準參考。2015年,他和Ana Busic教授獲得了谷歌研究獎,以表彰他們在可再生能源整合方面的研究。他是IEEE Fellow和IEEE控制系統(tǒng)協(xié)會杰出講師,主講與強化學習和能源系統(tǒng)相關(guān)的主題。
目錄譯者序前言第1章引言11.1本書涵蓋的內(nèi)容11.2未深入探討的內(nèi)容41.3參考資料5第一部分無噪聲情況下的基礎(chǔ)知識第2章控制理論概述82.1身邊的控制問題82.2該怎么辦102.3狀態(tài)空間模型112.3.1充分統(tǒng)計量與非線性狀態(tài)空間模型112.3.2狀態(tài)增廣和學習122.3.3線性狀態(tài)空間模型132.3.4向牛頓和萊布尼茨致敬152.4穩(wěn)定性和性能162.4.1總成本162.4.2平衡點的穩(wěn)定性172.4.3李雅普諾夫函數(shù)182.4.4技術(shù)證明212.4.5連續(xù)時間域的幾何222.4.6線性狀態(tài)空間模型242.5展望未來:從控制理論到強化學習282.5.1演員-評論家292.5.2時間差分292.5.3老虎機與探索302.6如何忽略噪聲312.7示例312.7.1華爾街312.7.2山地車332.7.3磁球352.7.4倒立擺372.7.5Pendubot和Acrobot382.7.6合作賽艇402.8習題412.9注記49第3章最優(yōu)控制503.1總成本的價值函數(shù)503.2貝爾曼方程513.2.1值迭代533.2.2策略改進553.2.3佩龍-弗羅貝尼烏斯定理:簡單介紹*553.3各種變形583.3.1折扣成本583.3.2最短路徑問題583.3.3有限時域603.3.4模型預測控制613.4逆動態(tài)規(guī)劃613.5貝爾曼方程是一個線性規(guī)劃633.6線性二次調(diào)節(jié)器643.7再向前看一些663.8連續(xù)時間最優(yōu)控制*673.9示例693.9.1山地車693.9.2蜘蛛和蒼蠅713.9.3資源爭奪與不穩(wěn)定性723.9.4求解HJB方程753.10習題773.11注記83第4章算法設(shè)計的ODE方法844.1常微分方程844.2回顧歐拉方法874.3牛頓-拉弗森流884.4最優(yōu)化904.4.1凸性的作用914.4.2Polyakojasiewicz條件934.4.3歐拉近似934.4.4含約束的優(yōu)化954.5擬隨機近似984.5.1擬蒙特卡羅方法1004.5.2系統(tǒng)辨識1014.5.3近似策略改進1034.5.4QSA理論簡介1074.5.5恒定增益算法1114.5.6Zap QSA1134.6無梯度優(yōu)化1134.6.1模擬退火1144.6.2算法菜單1154.7擬策略梯度算法1184.7.1山地車1184.7.2LQR1214.7.3高維的情況1234.8ODE的穩(wěn)定性*1234.8.1伽羅瓦不等式1234.8.2李雅普諾夫函數(shù)1254.8.3梯度流1264.8.4在∞處的ODE1294.9QSA的收斂性理論*1324.9.1主要結(jié)果和一些見解1334.9.2ODE的整體性1364.9.3穩(wěn)定性判據(jù)1404.9.4確定性馬爾可夫模型1444.9.5收斂速度1454.10習題1504.11注記1564.11.1算法設(shè)計的ODE 方法1564.11.2最優(yōu)化1574.11.3QSA1574.11.4SGD與極值搜索控制158第5章價值函數(shù)近似1615.1函數(shù)近似架構(gòu)1625.1.1基于訓練數(shù)據(jù)的函數(shù)近似1635.1.2線性函數(shù)近似1645.1.3神經(jīng)網(wǎng)絡(luò)1655.1.4核1665.1.5我們完成了嗎1685.2探索和ODE近似1695.3TD學習和線性回歸1725.3.1既定策略的時間差分1725.3.2最小二乘和線性回歸1735.3.3遞歸LSTD和Zap1765.4投影貝爾曼方程和TD算法1775.4.1伽遼金松弛和投影1785.4.2TD(λ)學習1785.4.3投影貝爾曼算子和Q學習1825.4.4GQ學習1835.4.5批處理方法和DQN1845.5凸Q學習1865.5.1有限維函數(shù)類的凸Q學習1875.5.2BCQL和核方法1905.6連續(xù)時間下的Q學習*1915.7對偶性*1935.8習題1955.9注記1995.9.1機器學習1995.9.2TD學習1995.9.3Q學習200第二部分強化學習與隨機控制第6章馬爾可夫鏈2046.1馬爾可夫模型是狀態(tài)空間模型2046.2簡單示例2076.3譜和遍歷性2106.4隨機向前看一些2136.4.1評論家方法2136.4.2演員方法2146.5泊松方程2146.6李雅普諾夫函數(shù)2166.6.1平均成本2176.6.2折扣成本2186.7模擬:置信邊界和控制變量2206.7.1有限的漸近統(tǒng)計量2206.7.2漸近方差和混合時間2226.7.3樣本復雜度2246.7.4一個簡單示例2246.7.5通過設(shè)計消除方差2266.8靈敏度和純演員方法2286.9一般馬爾可夫鏈的遍歷理論*2306.9.1分類2306.9.2李雅普諾夫理論2316.10習題2336.11注記241第7章隨機控制2427.1MDP:簡要介紹2427.2流體模型近似2457.3隊列2487.4速度縮放2507.4.1流體模型2517.4.2計算和完整性2527.4.3完整性詳解2547.5LQG2557.5.1流體模型動力學2557.5.2DP方程2567.5.3部分可觀測2577.6一個排隊游戲2587.7用部分信息控制漫游車2617.8老虎機2637.8.1老虎機模型2647.8.2貝葉斯老虎機2647.8.3天真的樂觀可以成功2677.9習題2687.10注記276第8章隨機近似2778.1漸近協(xié)方差2788.2主題與路線圖2798.2.1ODE設(shè)計2808.2.2ODE近似2818.2.3步長選擇2838.2.4多時間尺度2848.2.5算法性能2858.2.6漸近與瞬態(tài)性能2878.3示例2898.3.1蒙特卡羅2898.3.2隨機梯度下降2908.3.3經(jīng)驗風險最小化2928.4算法設(shè)計示例2938.4.1增益選擇2938.4.2方差公式2948.4.3模擬2958.5Zap隨機近似2978.5.1近似牛頓-拉弗森流2978.5.2Zap零2988.5.3隨機牛頓-拉弗森算法2998.6買方責任自負3008.6.1條件數(shù)災難3008.6.2馬爾可夫記憶的災難3028.7一些理論*3038.7.1穩(wěn)定性和收斂性3048.7.2線性化和收斂速率3048.7.3PolyakRuppert平均3068.8習題3108.9注記3118.9.1SA和RL3118.9.2穩(wěn)定性3128.9.3漸近統(tǒng)計3128.9.4更少的漸近統(tǒng)計312第9章時間差分法3149.1策略改進3159.1.1既定策略價值函數(shù)和DP方程3159.1.2PIA與Q函數(shù)3169.1.3優(yōu)勢函數(shù)3179.2函數(shù)逼近和光滑3189.2.1條件期望和投影3199.2.2線性獨立性3209.3損失函數(shù)3219.3.1均方貝爾曼誤差3219.3.2均方價值函數(shù)誤差3229.3.3投影貝爾曼誤差3239.4TD(λ)學習3239.4.1線性函數(shù)類3239.4.2非線性參數(shù)化3259.5回歸Q函數(shù)3269.5.1探索3269.5.2異同策略算法3279.5.3相對TD(λ)3299.5.4優(yōu)勢函數(shù)的TD(λ)3329.6沃特金斯的Q學習3339.6.1最優(yōu)控制要素3339.6.2沃特金斯算法3349.6.3探索3359.6.4ODE分析3369.6.5方差問題3399.7相對Q學習3409.7.1增益選擇3419.7.2誠實的結(jié)論3429.8GQ和Zap3439.8.1GQ學習3449.8.2Zap Q學習3469.9技術(shù)證明*3499.9.1優(yōu)勢函數(shù)3499.9.2TD穩(wěn)定性理論3499.10習題3539.11注記3549.11.1時間差分方法3549.11.2Q學習3549.11.3GQ和Zap3559.11.4凸Q學習356第10章搭建舞臺,演員回歸35710.1舞臺、投影和伴隨矩陣35810.1.1線性算子和伴隨矩陣35810.1.2伴隨矩陣和資格向量35910.1.3加權(quán)范數(shù)和加權(quán)資格向量36010.2優(yōu)勢函數(shù)與新息36210.2.1優(yōu)勢函數(shù)的投影及其值36210.2.2加權(quán)范數(shù)36310.3再生36410.4平均成本及其他指標36510.4.1其他指標36510.4.2平均成本算法36810.5集結(jié)演員37010.5.1平均成本的演員-評論家37010.5.2一些警告和補救措施37210.6無偏SGD37310.7優(yōu)勢函數(shù)和控制變量37510.7.1通過優(yōu)勢函數(shù)減少方差37510.7.2更好的優(yōu)勢函數(shù)37610.8自然梯度和Zap37710.9技術(shù)證明*37910.10注記38210.10.1伴隨矩陣和TD學習38210.10.2演員-評論家方法38310.10.3一些歷史38410.10.4費歇耳信息384附錄附錄A數(shù)學背景386附錄B馬爾可夫決策過程392附錄C部分觀測和置信狀態(tài)399參考文獻405
你還可能感興趣
我要評論
|