統(tǒng)計學習是一套以復雜數(shù)據(jù)建模和數(shù)據(jù)理解為目的的工具集,是近期才發(fā)展起來的統(tǒng)計學的一個新領域。本書出自統(tǒng)計學習領域聲名顯赫的幾位專家,結(jié)合R語言介紹了分析大數(shù)據(jù)必不可少的工具,提供一些最重要的建模和預測技術(shù),并借助豐富的實驗來解釋如何用R語言實現(xiàn)統(tǒng)計學習方法。論題包括線性回歸、分類、重抽樣方法、壓縮方法、基于樹的方法、支持向量機、聚類等,作者借助彩圖和實際案例直觀解釋這些方法。為了讀者更好地理解書中內(nèi)容,每章后還配有豐富的概念性和應用性練習題。
書中內(nèi)容與《The Elements of Statistical Learning》的大部分內(nèi)容相同,但是本書起點低,弱化了數(shù)學推導的細節(jié),更注重方法的應用,所以更適合作為入門教材。當然,這本《統(tǒng)計學習導論》不僅是優(yōu)秀的“統(tǒng)計學習”或“機器學習”課程的教材,也是數(shù)據(jù)挖掘、數(shù)據(jù)分析等相關從業(yè)者不可或缺的參考書。
中 文 版 序
When we wrote An Introduction to Statistical Learning, we had a single goal: to make key concepts in statistical machine learning accessible to a very broad audience. We are thrilled that Professor Xing Wang has taken the time to translate our book into Chinese, so that these concepts will be made accessible to an even broader audience. We hope that the readers of this Chinese translation will find our book to be a useful and informative introduction to a very exciting and important research area.
Sincerely!
回想當初在編寫 《統(tǒng)計學習導論》這本書的時候,我們4位作者心中只有一個夢想:讓更多的
讀者能夠聆聽到統(tǒng)計機器學習里的基本概念。中國人民大學的王星教授花了很多時間將這本書翻
譯成中文,這令我們十分欣慰,相信會有更多的朋友可以通過這本書涉足該領域。我們希望中文版的讀者會被書中的內(nèi)容豐富和案例實用所吸引,并由此進入一個令人興奮且頗具影響的研究領域。
真誠地祝福!
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
譯者序
數(shù)據(jù)是對事物及其量的記錄,有存儲字節(jié)的記錄就是數(shù)據(jù)。數(shù)據(jù)是研究各種問題的基礎,數(shù)據(jù)的形態(tài)種類繁多,但有兩類數(shù)據(jù)在分析中常常是不能忽略的,一類是測量數(shù)據(jù),另一類是系統(tǒng)數(shù)據(jù)。前者主要是指用合適的工具對給定研究對象某個屬性上的量進行測定,主要用于提供有關研究對象量的實驗證據(jù),一般需要針對研究目標進行特定的科學設計、抽樣計算、數(shù)據(jù)采集、相關整理、參數(shù)估計和模型檢驗等。這類數(shù)據(jù)的產(chǎn)生過程嚴格,規(guī)則明確,數(shù)據(jù)質(zhì)量受實驗環(huán)境影響較大,建模的主要目的是分析估計目標的誤差來源和相關影響。后者則是計算機體系架構(gòu)為高效傳輸文件而產(chǎn)生的記錄,比如日志、IP地址等,這類記錄中既包含了系統(tǒng)的運行程序也包含了所傳遞對象的流通屬性,其特點是,模塊結(jié)構(gòu)化程度高,程序繁殖很快,高消耗低效能特征明顯。這兩類數(shù)據(jù)在巨大的網(wǎng)絡平臺上各自位于相對獨立的體系并在自有協(xié)議中運行。另一方面,兩類數(shù)據(jù)掌管著人、機、物三元世界的信息交換,比如在個性化醫(yī)療實施方案中,既需要測量數(shù)據(jù)的支持也需要系統(tǒng)數(shù)據(jù)的支持,比如通過普查數(shù)據(jù)可以了解老齡人口的分布情況,通過互聯(lián)網(wǎng)監(jiān)測系統(tǒng)可以對其中的孤寡老人開展危險分層建模和有效的社區(qū)醫(yī)療服務。后者又為高危人口的進一步分析提供監(jiān)測的抽樣框,所以統(tǒng)一分析非常必要。在這些動態(tài)、價值密度有待開發(fā)的高維大數(shù)據(jù)上發(fā)展協(xié)同自序的新數(shù)據(jù)應用模型,統(tǒng)計學習方法是必要的工具,它用于協(xié)調(diào)大數(shù)據(jù)重組結(jié)構(gòu)中差異的發(fā)現(xiàn)和分離,并維護整體分析的同一性。
本書4位作者都是統(tǒng)計學習領域的先行者,作者Trevor Hastie和Robert Tibshirani在十幾年前主導了《統(tǒng)計學習基礎》(The Elements of Statistical Learning,ESL)的出版,這本書堪稱學術(shù)經(jīng)典,系統(tǒng)闡述了統(tǒng)計學習理論,培養(yǎng)了大批數(shù)據(jù)分析專業(yè)人士。而這一次,兩位作者提攜了兩位年輕教授共同推動統(tǒng)計學習在復雜數(shù)據(jù)分析領域作為模型建立和數(shù)據(jù)理解的工具的應用。這些工具模型在R軟件中可以任意組合,具有很強的實用性和靈活性。與傳統(tǒng)統(tǒng)計模型重點關注單一結(jié)構(gòu)的數(shù)據(jù)統(tǒng)計特征不同,統(tǒng)計學習模型重點關注數(shù)據(jù)分布結(jié)構(gòu)的提取和程序分析的建構(gòu)思維。書中例子豐富有趣,涉足諸多領域,包括體育、市場營銷、金融等熱門領域,案例深入淺出、實驗特色鮮明。本書適用于數(shù)據(jù)分析、機器學習以及統(tǒng)計學等專業(yè)方向高年級本科生和研究生,同時也可作為非統(tǒng)計學專業(yè)數(shù)據(jù)分析發(fā)燒友的手邊參考書。
本人多年從事統(tǒng)計學習、R軟件的教學和科研,一個切身的體會是國內(nèi)大數(shù)據(jù)分析市場化程度較低,有價值的研究常常無法獲得高質(zhì)量的分析數(shù)據(jù),而公共數(shù)據(jù)的開發(fā)還有待深化,一些鐘情于數(shù)據(jù)分析的發(fā)燒友其實更迷戀國外結(jié)構(gòu)化較高且內(nèi)涵豐富的數(shù)據(jù),比如Pubmed等。一個原因是具備數(shù)據(jù)提供能力的人往往不能正確評估手中數(shù)據(jù)的分析價值,換句話說,是對統(tǒng)計學習方法的實踐能力不足。相信這本書將再次掀起國內(nèi)大數(shù)據(jù)分析和R實踐愛好者參與設計新的學習模型的熱潮,從而共同推動國內(nèi)大數(shù)據(jù)分析合作市場的建立。正因為如此,我和我的團隊犧牲了多半年本該屬于其他重點課題研究的寶貴時間,傾情專注于這本書的翻譯和校對,除我之外,還有以下同學參與了初稿的翻譯:顏婭婷、王人福、佴金菁、李雅菁、張慧婷、許泳鐸、王聰、鄭軼、馬璇、李政寰,其中顏婭婷和王人福還參與了部分初稿的修改工作,王星負責全書的統(tǒng)稿和審核。本書受中國人民大學“985工程”支持和中國人民大學科學研究基金項目人文學科跨界關系網(wǎng)絡跟蹤評價研究編號13XNI011資助,在此一并感謝。
其實早在10年前我們開始研讀《統(tǒng)計學習基礎》時就希望有機會參與這個新方向經(jīng)典作品的翻譯,可惜遲到一步。這次翻譯彌補了多年的缺憾,能夠獲得翻譯專業(yè)經(jīng)典的機會是我和整個團隊的殊榮,相信其他讀者也能夠從中感受到我們傳遞給大數(shù)據(jù)分析愛好者的一份熱忱與真誠。
王星
2015年1月
中國人民大學應用統(tǒng)計研究中心&統(tǒng)計學院
前言
統(tǒng)計學習是一套以復雜數(shù)據(jù)建模和數(shù)據(jù)理解為目的的工具集,是近期才發(fā)展起來的統(tǒng)計學的一個新領域,它與計算機科學特別是其中的機器學習相互融合、協(xié)同發(fā)展。統(tǒng)計學習領域涵蓋了許多方法,比如說lasso回歸、稀疏回歸、分類和回歸樹、提升法和支持向量機。
隨著“大數(shù)據(jù)”問題的爆炸式增長,統(tǒng)計學習已成為許多科學領域及市場研究、金融學等商科領域一個非常熱門的話題,擁有統(tǒng)計學習技能的人才千金難求。
統(tǒng)計學習領域開山之作之一——《統(tǒng)計學習基礎》(The Elements of Statistical Learning,ESL)(作者Hastie, Tibshirani, Friedman)于2001年出版,第2版于2009年問世,F(xiàn)在,ESL已成為統(tǒng)計學界乃至其他相關領域的一本非常受歡迎的教材,其中一個原因是ESL的風格平實,易于接受。但事實上,ESL是為受過數(shù)學科學高等訓練的人而寫的。這本《統(tǒng)計學習導論》(An Introduction to Statistical Learning,ISL)是為對統(tǒng)計學習方法有廣泛需求,但又擔心技術(shù)高深難懂的讀者所寫。本書所列主題與ESL大體一致,但更注重方法的應用且同時弱化了數(shù)學推導的細節(jié)。書中附有一些實驗以解釋如何用R軟件實現(xiàn)統(tǒng)計學習方法。這些實驗能夠給讀者提供有價值的實操經(jīng)驗。
本書適合統(tǒng)計學及相關數(shù)量分析領域的高年級本科生以及碩士生閱讀,也適合其他專業(yè)希望運用統(tǒng)計學習工具分析數(shù)據(jù)的人閱讀。本書可作為一學期到兩學期課程的教科書使用。
在此,對那些曾經(jīng)閱讀過本書初稿并提出寶貴意見的人致以誠摯的感謝:Pallavi Basu, Alexandra Chouldechova, Patrick Danaher, Will Fithian, Luella Fu, Sam Gross, Max Grazier GSell, Courtney Paulson, Xinghao Qiao, Elisa Sheng, Noah Simon, Kean Ming Tan和Xin Lu Tan。
預測不易,預測未來更不易!猋ogi Berra
Gareth James(美國洛杉磯)
Daniela Witten(美國西雅圖)
Trevor Hastie(美國帕羅奧圖)
Robert Tibshirani(美國帕羅奧圖)
Gareth James 斯坦福大學統(tǒng)計學博士畢業(yè),師從Trevor Hastie,F(xiàn)為南加州大學馬歇爾商學院統(tǒng)計學教授,美國統(tǒng)計學會會士,數(shù)理統(tǒng)計協(xié)會終身會員,新西蘭統(tǒng)計協(xié)會會員!禨tatistica Sinica》、《Applications and Case Studies》、《Theory and Methods》等期刊的副主編。
Daniela Witten 斯坦福大學統(tǒng)計學博士畢業(yè),師從Robert Tibshirani,F(xiàn)為華盛頓大學生物統(tǒng)計學副教授,美國統(tǒng)計學會和國際數(shù)理統(tǒng)計協(xié)會會士,《Journal of Computational and Graphical Statistics》和《Biometrika》等期刊副主編。
Trevor Hastie 美國統(tǒng)計學家和計算機科學家,斯坦福大學統(tǒng)計學教授,英國皇家統(tǒng)計學會、國際數(shù)理統(tǒng)計協(xié)會和美國統(tǒng)計學會會士。Hastie參與開發(fā)了 R 中的大部分統(tǒng)計建模軟件和環(huán)境,發(fā)明了主曲線和主曲面。
Robert Tibshirani 斯坦福大學統(tǒng)計學教授,國際數(shù)理統(tǒng)計協(xié)會、美國統(tǒng)計學會和加拿大皇家學會會士,1996年COPSS總統(tǒng)獎得主,提出lasso方法。Hastie和Tibshirani都是統(tǒng)計學習領域的泰山北斗,兩人合著《The Elements of Statistical Learning》,還合作講授斯坦福大學的公開課《統(tǒng)計學習》。