機器學習是關于從數據中建立預測或描述模型,以提升機器解決問題能力的學科。在建立模型后,需要采用適當的優(yōu)化算法來求解模型的參數,因此優(yōu)化算法是機器學習的重要組成部分。但是傳統的優(yōu)化算法并不完全適用于機器學習,因為通常來說機器學習模型的參數維度很高或涉及的樣本數巨大,這使得一階優(yōu)化算法在機器學習中占據主流地位。
本書概述了機器學習中加速一階優(yōu)化算法的新進展。書中全面介紹了各種情形下的加速一階優(yōu)化算法,包括確定性和隨機性的算法、同步和異步的算法,以求解帶約束的問題和無約束的問題、凸問題和非凸問題,對算法思想進行了深入的解讀,并對其收斂速度提供了詳細的證明。
本書面向機器學習和優(yōu)化領域的研究人員,包括人工智能、信號處理及應用數學特別是計算數學專業(yè)高年級本科生、研究生,以及從事人工智能、信號處理領域產品研發(fā)的工程師。
適讀人群:
機器學習和優(yōu)化領域的研究人員,包括人工智能、信號處理及應用數學特別是計算數學專業(yè)高年級本科生、研究生,以及從事人工智能、信號處理領域產品研發(fā)的工程師
1、院士推薦。本書由Michael I. Jordan院士、徐宗本院士、羅智泉院士聯袂推薦。
2、作者知名。本書由機器學習和計算機視覺領域的國際知名專家,北京大學信息科學技術學院機器感知與智能重點實驗室教授林宙辰領銜撰寫。
3、內容前沿。概述了機器學習中加速一階優(yōu)化算法的新進展,全面介紹了各種情形下的加速一階優(yōu)化算法。
4、主流熱門。以當前機器學習會議的熱門話題加速算法為主線,涵蓋機器學習中常用的凸優(yōu)化、非凸優(yōu)化,以及隨機優(yōu)化和分布式優(yōu)化。
中文版前言
本書的英文版交稿后,對于是否要出版中文版,我的確糾結了一段時間.畢竟本書并非優(yōu)化算法的入門書,能夠關注它的人士一般都有較好的數學和英文基礎,在此前提下,出版中文版似乎沒什么必要,而且會占用我們的科研時間,讓我們繼續(xù)在已知的范圍內打圈圈,妨礙我們去探尋未知.然而,庚子年突發(fā)新冠疫情,習近平總書記把論文寫在祖國大地上的號召越發(fā)深入人心.另外,不少好友在得知英文版將要出版的消息后,向我詢問有沒有中文版,也讓我意識到出版中文版的必要性.因此,在NeurIPS2020論文提交截止后,我和李歡、方聰再次犧牲所有的業(yè)余時間,馬上開始了翻譯工作.所幸數學公式占了絕大部分,文字翻譯和全書校對得以在較短的時間內完成.但是,中文版并不是英文版的逐字簡單翻譯,我們添加了少量內容(如增加了第2.1、2.2節(jié)和一致凸函數的定義,擴充了第2.3節(jié)),還更正了英文版中的一些細節(jié)錯誤.完成了中文版,我才終于覺得這項工作功德圓滿,故作小詩一首:
一朝意氣興, 兩載苦勞形.
若可追周髀, 千觥醉未名!
林宙辰
于北京 .北京大學
2020 年 10 月
本書中文版主體譯自:
Accelerated Optimization for Machine Learning: First-Order Algorithms by Zhouchen Lin, Huan Li and Cong Fang.
Copyright . Springer Nature Singapore Pte Ltd. 2020. All Rights Reserved.
建議引用本書英文版.
英文版前言
在為北京大學開設的優(yōu)化課程準備高級材料時,我發(fā)現加速算法是對工程專業(yè)學生有吸引力和實用的專題.實際上,這也是當前機器學習會議的熱門話題.盡管有些書介紹了一些加速算法,例如[Beck,2017;Bubeck,2015;Nesterov,2018],但它們不完整、不系統且不是的.因此,在2018年年初,我決定寫一本有關加速算法的專著.我的目標是寫一本有條理的書,其中包含足夠的入門材料和詳盡的證明,以便讀者無須查閱分散四處的文獻,不被不一致的符號所困擾,并且不被非關鍵內容包圍而不知中心思想為何.幸運的是,我的兩個博士生李歡和方聰很樂意加入這項工作.
事實證明,這項任務非常艱巨,因為我們必須在繁忙的工作日程中抽空進行寫作.終,在李歡和方聰博士畢業(yè)之前,我們終于寫完了一份粗糙但完整的初稿.接下來,我們又花了四個月的時間來使本書讀起來流暢并訂正了各種不一致和錯誤.后,我們極為榮幸地收到MichaelI.Jordan教授、徐宗本教授和羅智泉教授寫的序.盡管這本書占用了我們近兩年的所有閑暇時間,但當全書終于完成的時候,我們仍然覺得我們的努力是完全值得的.
希望這本書能成為機器學習和優(yōu)化領域研究人員的有價值的參考書,這將是對我們工作的認可.
林宙辰
于北京 .北京大學
2019 年 11 月
參 考 文 獻
Beck Amir. (2017). First-Order Methods in Optimization[M]. volume 25. SIAM, Philadelphia.
Bubeck Sébastien. (2015). Convex optimization: Algorithms and complexity[J]. Found. Trends Math. Learn., 8(3-4): 231-357.
Nesterov Yurii. (2018). Lectures on Convex Optimization[M]. 2nd ed. Springer.
林宙辰
機器學習和計算機視覺領域的國際知名專家,目前是北京大學信息科學技術學院機器感知與智能教育部重點實驗室教授。他曾多次擔任多個業(yè)內會議的領域主席,包括CVPR、ICCV、ICML、NIPS/NeurIPS、AAAI、 IJCAI和ICLR。他曾任IEEE Transactions on Pattern Analysis and Machine Intelligence編委,現任International Journal of Computer Vision和Optimization Methods and Software的編委。他是IAPR和IEEE的會士。
李 歡
于2019 年在北京大學獲得博士學位,專業(yè)為機器學習。目前是南開大學人工智能學院助理研究員,研究興趣包括優(yōu)化和機器學習。
方 聰
于2019 年在北京大學獲得博士學位,專業(yè)為機器學習。目前是北京大學助理教授,研究興趣包括機器學習和優(yōu)化。
推薦序一
推薦序二
推薦序三
中文版前言
英文版前言
致謝
作者介紹
符號表
第 1 章 緒論 1
1.1 機器學習中的優(yōu)化問題舉例 1
1.1.1 正則化的經驗損失模型 1
1.1.2 矩陣填充及低秩學習模型 3
1.2 一階優(yōu)化算法 3
1.3 加速算法中的代表性工作綜述 4
1.4 關于本書 7
參考文獻 7
第 2 章 無約束凸優(yōu)化中的加速算法 14
2.1 梯度下降法 14
2.2 重球法 15
2.3 加速梯度法 16
2.4 求解復合凸優(yōu)化問題的加速梯度法 23
2.4.1 種 Nesterov 加速鄰近梯度法 23
2.4.2 第二種 Nesterov 加速鄰近梯度法 27
2.4.3 第三種 Nesterov 加速鄰近梯度法 31
2.5 非精確加速鄰近梯度法 33
2.5.1 非精確加速梯度法 42
2.5.2 非精確加速鄰近點法 42
2.6 重啟策略 43
2.7 平滑策略 45
2.8 高階加速方法 50
2.9 從變分的角度解釋加速現象 55
參考文獻 60
第 3 章 帶約束凸優(yōu)化中的加速算法 63
3.1 線性等式約束問題的一些有用結論 63
3.2 加速罰函數法 66
3.2.1 一般凸目標函數 71
3.2.2 強凸目標函數 71
3.3 加速拉格朗日乘子法 72
3.3.1 原始問題的解 74
3.3.2 加速增廣拉格朗日乘子法 76
3.4 交替方向乘子法及非遍歷意義下的加速算法 77
3.4.1 情形 1:一般凸和非光滑目標函數 82
3.4.2 情形 2:強凸非光滑目標函數 83
3.4.3 情形 3:一般凸和光滑目標函數 85
3.4.4 情形 4:強凸和光滑目標函數 87
3.4.5 非遍歷意義收斂速度 88
3.5 原始對偶算法 98
3.5.1 情形 1:兩個函數均非強凸 100
3.5.2 情形 2:只有一個函數強凸 101
3.5.3 情形 3:兩個函數均強凸 103
3.6 Frank-Wolfe 算法 104
參考文獻 108
第 4 章 非凸優(yōu)化中的加速梯度算法 112
4.1 帶沖量的鄰近梯度法 112
4.1.1 收斂性理論 113
4.1.2 單調加速鄰近梯度法 120
4.2 快速收斂到臨界點 120
4.2.1 能夠檢測強凸性質的 AGD 121
4.2.2 負曲率下降算法 123
4.2.3 非凸加速算法 125
4.3 快速逃離鞍點 128
4.3.1 幾乎凸的情形 128
4.3.2 完全非凸情形 130
4.3.3 非凸加速梯度下降法 131
參考文獻 136
第 5 章 加速隨機算法 138
5.1 各自凸情況 139
5.1.1 加速隨機坐標下降算法 140
5.1.2 方差縮減技巧基礎算法 147
5.1.3 加速隨機方差縮減方法 152
5.1.4 黑盒加速算法 158
5.2 各自非凸情況 160
5.3 非凸情況 166
5.3.1 隨機路徑積分差分估計子 167
5.3.2 沖量加速 173
5.4 帶約束問題 174
5.5 無窮情況 197
參考文獻 200
第 6 章 加速并行算法 202
6.1 加速異步算法 202
6.1.1 異步加速梯度下降算法 203
6.1.2 異步加速隨機坐標下降算法 215
6.2 加速分布式算法 227
6.2.1 中心化模式 227
6.2.2 去中心化模式 232
參考文獻 243
第 7 章 總結 246
參考文獻 247
附錄 A 數學基礎 249
A.1 代數與概率 249
A.2 凸分析 250
A.3 非凸分析 257
參考文獻 259
縮略語表 260
索引 262