本書研究的靈感來自于近期的強化學習(RL)和信息物理系統(tǒng)(CPS)領域的發(fā)展。RL植根于行為心理學,是機器學習的主要分支之一。不同于其他機器學習算法(如監(jiān)督學習和非監(jiān)督學習),RL的關鍵特征是其獨特的學習范式,即試錯。與深度神經網(wǎng)絡相結合,深度RL變得如此強大,以至于許多復雜的系統(tǒng)可以被人工智能智能體在超人的水平上自動管理。另一方面,CPS被設想在不久的將來給我們的社會帶來革命性的變化。這些例子包括新興的智能建筑、智能交通和電網(wǎng)。
適讀人群 :科學、工程、計算機科學或應用數(shù)學領域的研究生、本科生、研究人員和工程師。 本書的靈感來自強化學習(RL)與信息物理系統(tǒng)(CPS)領域近期的發(fā)展。強化學習植根于行為心理學,是機器學習的主要分支。與監(jiān)督學習和無監(jiān)督學習這樣的機器學習算法不同,強化學習的主要特征是其獨一無二的學習范式——試錯法。通過與深度神經網(wǎng)絡結合,深度強化學習變得非常強大,使得AI智能體能夠以超人類的水平自動管理許多復雜的系統(tǒng)。此外,人們期望信息物理系統(tǒng)能夠在不久的將來給我們的社會帶來顛覆性改變,例如新興智能建筑、智能交通和電網(wǎng)。
然而,信息物理系統(tǒng)領域的傳統(tǒng)人工編程控制器,既不能處理日益復雜的系統(tǒng),也不能自動適應它以前從未遇到過的新情況。如何應用現(xiàn)有的深度強化學習算法或開發(fā)新的強化學習算法以實現(xiàn)實時適應性信息物理系統(tǒng)?此問題仍然懸而未決。本書通過系統(tǒng)介紹強化學習領域的基礎與算法,在兩個領域之間建立起聯(lián)系,并在每一部分列舉了一個或幾個*新的信息物理系統(tǒng)示例,以幫助讀者直觀地理解強化學習技術的實用性。
本書特色
介紹強化學習,包括強化學習領域的高級主題。
將強化學習應用到信息物理系統(tǒng)和網(wǎng)絡安全。
每章都包含新的示例和練習。
用兩個案例研究介紹網(wǎng)絡安全問題。
本書適用于科學、工程、計算機科學或應用數(shù)學領域的研究生或大三/大四本科生,以及對于網(wǎng)絡安全、強化學習和信息物理系統(tǒng)等領域感興趣的研究人員和工程師。閱讀本書的讀者需要微積分和概率論的基礎知識。
前 言
Reinforcement Learning for Cyber-Physical Systems: with Cybersecurity Case Studies
人工智能(Artificial Intelligence,AI)這一學科始創(chuàng)于1956年,經歷了幾次突飛猛進的發(fā)展,但每次都伴隨著漫長的寒冬,也就是AI寒冬—其原因是計算能力的限制、硬件技術成本的提高、科研經費的缺乏等。而包括無線技術、信息技術和集成電路(IC)在內的其他技術,在此時期已經有了顯著的進步并成為主流。從2010年開始,先進的計算技術、取自人們日;顒拥拇髷(shù)據(jù),以及機器學習、神經網(wǎng)絡等人工智能研究子領域的整合,使社會風尚的主流轉向人工智能研究及其廣泛的應用。例如,谷歌DeepMind最近推出的人工智能圍棋玩家AlphaGo Zero,可以在零人工輸入的情況下實現(xiàn)超人類水平的性能。也就是說,這臺機器可以從不了解任何圍棋知識開始,通過與自己玩游戲成為自己的老師。AlphaGo的突破性成功表明,人工智能可以從一個“新生的嬰兒”開始,學會自己成長,最終表現(xiàn)出超人類水平的性能,幫助我們解決現(xiàn)在和未來面臨的最具挑戰(zhàn)性的任務。
本書的靈感來自強化學習(RL)與信息物理系統(tǒng)(CPS)領域近期的發(fā)展。強化學習植根于行為心理學,是機器學習的主要分支。與監(jiān)督學習和無監(jiān)督學習這樣的機器學習算法不同,強化學習的主要特征是其獨一無二的學習范式—試錯法。通過與深度神經網(wǎng)絡結合,深度強化學習變得十分強大,使得AI智能體能夠以超人類的水平自動管理許多復雜的系統(tǒng)。此外,人們期望CPS能夠在不久的將來給我們的社會帶來顛覆性改變,例如新興智能建筑、智能交通和電網(wǎng)。然而,CPS領域傳統(tǒng)的人工編程控制器,既不能處理日益復雜的系統(tǒng),也不能自動適應它以前從未遇到過的新情況。如何應用現(xiàn)有的深度強化學習算法或開發(fā)新的強化學習算法以實現(xiàn)實時適應性CPS?此問題仍然懸而未決。本書通過系統(tǒng)介紹強化學習領域的基礎與算法,在兩個領域之間建立起聯(lián)系,并在每一部分列舉了一個或幾個最新的CPS示例,以幫助讀者直觀地理解強化學習技術的實用性。我們相信,書中大量關于強化學習算法的CPS示例會對所有正在使用或將使用強化學習工具解決現(xiàn)實世界問題的人非常有益。
本書系統(tǒng)介紹強化學習和深度強化學習的關鍵思想和算法,并全面介紹CPS和網(wǎng)絡安全。我們的目標是使所展示的內容易于機器學習、CPS或其他相關學科的讀者理解。因此,本書不是一本嚴格意義上的專注于強化學習和CPS理論的書籍。此外,本書并不是對現(xiàn)有的可用強化學習算法的最新總結(因為文獻數(shù)量龐大且發(fā)展迅速)。只有少數(shù)典型的強化學習算法被收錄在本書中用于教學。
本書第一部分對強化學習、CPS和網(wǎng)絡安全進行概要介紹。第1章介紹強化學習的概念和發(fā)展歷史。第2章介紹CPS和網(wǎng)絡安全的概念和框架。第二部分正式介紹強化學習的框架,并對強化學習問題進行定義,給出了兩類解決方案:基于模型的解決方案和無模型的解決方案。為了使本書各部分內容獨立,以便讀者不必事先了解強化學習就可以很容易地理解每一個知識點,我們在本書中采用Sutton和Barto(1998)的經典強化學習書籍中的一些資料,而不是在書中提供索引讓讀者到他們的書中查看相關的算法和討論。最后,我們用一章的篇幅介紹近年來發(fā)展極為迅速的新興研究領域—深度強化學習。第三部分通過回顧現(xiàn)有的網(wǎng)絡安全技術并描述新興的網(wǎng)絡威脅,將注意力轉移到網(wǎng)絡安全,其中這些新興的網(wǎng)絡攻擊不是傳統(tǒng)的網(wǎng)絡管理方法能直接解決的。之后給出了兩個案例研究,它們是基于(深度)強化學習解決這些新興網(wǎng)絡安全問題的典型案例。這兩個案例基于哥倫比亞大學研究生的研究成果。這一部分旨在說明如何應用強化學習知識來描述和解決與CPS相關的問題。
本書適用于科學與工程領域的研究生或大三/大四本科生,這些領域包括計算機科學/工程、電氣工程、機械工程、應用數(shù)學、經濟學等。目標讀者還包括與強化學習、CPS以及網(wǎng)絡安全等領域相關的研究人員和工程師。讀者所需的唯一背景知識是微積分和概率論的基礎知識。
從某種意義上說,我們已經花了相當長的時間來為本書做準備。在過去的一年里,我們從哥倫比亞大學研究生和同事的反饋中受益匪淺。他們中的許多人對本書做出了重大貢獻。在此特別鳴謝:Tashrif Billah(第1章),邱龍飛、曾毅、劉小洋(第2章),Andrew Atkinson Stirn(第3章),Tingyu Mao(第4章),張靈鈺(第5章),顏禎佑(第6章),邱龍飛、劉小洋(第7章),Mehmet Necip Kurt、Oyetunji Enoch Ogundijo(第8章參考了他們的研究成果),胡曉天、胡洋(第9章參考了他們的研究成果)。我們還感謝Urs Niesen、Jon Krohn、張鵬、王振東和劉躍明對書稿的仔細審查和提出的建設性反饋。王振東和張磊貢獻了本書第3、4、5章的練習。本書中的一些練習和示例是從一些(在線)大學課程中獲取的,或由這些課程中的一些練習和示例修改而來,這些課程包括斯坦福大學的課程CS221和CS234、伯克利大學的課程CS294-129、卡內基–梅隆大學的課程10-701、倫敦大學學院的課程GI13/4C60、猶他大學的課程CS6300和華盛頓大學的課程CSE573。
最后,李崇博士非常感謝他的博士導師Nicola Elia。Elia教授對科學研究的嚴謹態(tài)度和方法,特別是他在最優(yōu)反饋控制和信息理論方面令人印象深刻的見解,極大地影響了本書的寫作方式。事實上,最優(yōu)反饋控制一直被視為強化學習歷史上的兩條主要線索之一。而另一條線索來自動物學習心理學。本書是對反饋控制理論和反饋信息理論的長期思考和深入研究的直接成果。邱美康教授感謝他的研究小組成員蓋珂珂教授和邱龍飛先生在將強化學習應用于網(wǎng)絡安全方面的研究洞察力和奉獻精神。我們相信由人工智能引領的新興領域將從根本上改變世界、人類和整個宇宙。
Reinforcement Learning for Cyber-Physical Systems: with Cybersecurity Case Studies
出版者的話
譯者序
前言
作者簡介
第一部分 介紹
第1章 強化學習概述 2
1.1 強化學習綜述 2
1.1.1 引言 2
1.1.2 與其他機器學習方法的比較 4
1.1.3 強化學習示例 6
1.1.4 強化學習應用 7
1.2 強化學習的發(fā)展歷史 9
1.2.1 傳統(tǒng)的強化學習 9
1.2.2 深度強化學習 11
1.3 強化學習的仿真工具 12
1.4 本章小結 13
第2章 信息物理系統(tǒng)和網(wǎng)絡安全概述 14
2.1 引言 14
2.2 信息物理系統(tǒng)研究示例 16
2.2.1 資源分配 16
2.2.2 數(shù)據(jù)傳輸與管理 18
2.2.3 能源控制 18
2.2.4 基于模型的軟件設計 19
2.3 網(wǎng)絡安全威脅 20
2.3.1 網(wǎng)絡安全的對手 20
2.3.2 網(wǎng)絡安全的目標 21
2.4 本章小結 26
2.5 練習 26
第二部分 強化學習在信息物理系統(tǒng)中的應用
第3章 強化學習問題 30
3.1 多臂賭博機問題 30
3.1.1 ε-greedy算法 33
3.1.2 softmax算法 35
3.1.3 UCB算法 36
3.2 上下文賭博機問題 37
3.3 完整的強化學習問題 39
3.3.1 強化學習的要素 40
3.3.2 馬爾可夫決策過程介紹 41
3.3.3 值函數(shù) 42
3.4 本章小結 45
3.5 練習 45
第4章 基于模型的強化學習 49
4.1 引言 49
4.2 動態(tài)規(guī)劃 51
4.2.1 策略迭代法 52
4.2.2 價值迭代法 55
4.2.3 異步動態(tài)規(guī)劃 56
4.3 部分可觀察馬爾可夫決策過程 58
4.4 連續(xù)馬爾可夫決策過程 61
4.4.1 惰性近似 61
4.4.2 函數(shù)近似 62
4.5 本章小結 63
4.6 練習 64
第5章 無模型強化學習 66
5.1 引言 66
5.2 強化學習預測 66
5.2.1 蒙特卡羅學習 66
5.2.2 時序差分學習 69
5.3 強化學習控制 71
5.3.1 蒙特卡羅控制 71
5.3.2 基于時序差分的控制 72
5.3.3 策略梯度 77
5.3.4 actor-critic 81
5.4 高級算法 84
5.4.1 期望Sarsa 84
5.4.2 雙Q-learning 85
5.5 本章小結 85
5.6 練習 86
第6章 深度強化學習 90
6.1 引言 90
6.2 深度神經網(wǎng)絡 90
6.2.1 卷積神經網(wǎng)絡 92
6.2.2 循環(huán)神經網(wǎng)絡 94
6.3 深度學習在值函數(shù)上的應用 95
6.4 深度學習在策略函數(shù)上的應用 100
6.4.1 DDPG 102
6.4.2 A3C 104
6.5 深度學習在強化學習模型上的應用 107
6.6 深度強化學習計算效率 108
6.7 本章小結 109
6.8 練習 109
第三部分 案例研究
第7章 強化學習與網(wǎng)絡安全 112
7.1 傳統(tǒng)的網(wǎng)絡安全方法 112
7.1.1 傳統(tǒng)的網(wǎng)絡安全技術 112
7.1.2 新興網(wǎng)絡安全威脅 113
7.2 強化學習在網(wǎng)絡安全中的應用 114
7.2.1 移動群智感知中的虛假感知攻擊 114
7.2.2 認知無線電網(wǎng)絡中的安全強化 115
7.2.3 移動邊緣計算中的安全問題 117
7.2.4 網(wǎng)絡安全分析師的動態(tài)調度 118
7.3 本章小結 119
7.4 練習 119
第8章 案例研究:智能電網(wǎng)中的在線網(wǎng)絡攻擊檢測 120
8.1 引言 120
8.2 系統(tǒng)模型和狀態(tài)估計 122
8.2.1 系統(tǒng)模型 122
8.2.2 狀態(tài)估計 123
8.3 問題描述 124
8.4 解決方案 127
8.5 仿真結果 130
8.5.1 仿真設計與參數(shù)設置 130
8.5.2 性能評估 130
8.6 本章小結 134
第9章 案例研究:擊敗中間人攻擊 135
9.1 引言 135
9.2 強化學習方法 137
9.2.1 狀態(tài)空間 137
9.2.2 行動空間 139
9.2.3 獎勵 139
9.3 實驗和結果 139
9.3.1 模型訓練 140
9.3.2 在線實驗 141
9.4 討論 143
9.4.1 基于探測器的檢測系統(tǒng) 143
9.4.2 運用SDN/OpenFlow使模型實用 144
9.5 本章小結 144
參考文獻 145
索引 161