![]() ![]() |
Lessons from alphazero for optimal, model predictive, and adaptive control
本書構建了近似動態(tài)規(guī)劃和強化學習的新的理論框架, 簡潔但雄心勃勃。這一框架以離線訓練和在線學習這兩個算法為中心, 彼此獨立又通過牛頓法有機融合。當今新一代人工智能技術發(fā)展絢麗多彩。在看似紛繁復雜的數(shù)據(jù)與算法表象之下, 其實蘊藏著簡潔而美妙的規(guī)律。通過本書的學習, 讀者將能體會經(jīng)典優(yōu)化控制理論在分析理解當代強化學習算法性能中的強大威力, 更能領悟到以阿爾法零為代表的新一代算法浪潮對經(jīng)典理論提供的新的發(fā)展機遇。
你還可能感興趣
我要評論
|