本書以大數(shù)據(jù)時代為背景,將機器學(xué)習(xí)與資產(chǎn)定價相結(jié)合,在風(fēng)險解釋、收益預(yù)測以及經(jīng)濟機制等方面進行了探索研究。首先,針對中國A股市場存在的收益與風(fēng)險不對稱問題,使用機器學(xué)習(xí)重新對系統(tǒng)性風(fēng)險進行測度,緩解了異象;其次,將研究拓展到樣本外的可預(yù)測性上,對比了各類機器學(xué)習(xí)算法,創(chuàng)新性地構(gòu)建了動態(tài)深度學(xué)習(xí)模型,提升了市場有效性;最后,從機器學(xué)習(xí)的可解釋性出發(fā),從微觀和宏觀兩個視角對機器學(xué)習(xí)背后的經(jīng)濟機制進行了討論。
本書以大數(shù)據(jù)時代為背景,將機器學(xué)習(xí)與資產(chǎn)定價相結(jié)合,在風(fēng)險解釋、收益預(yù)測以及經(jīng)濟機制等方面進行了探索研究。通過分析已有數(shù)據(jù)資料、建立模型、數(shù)據(jù)分析,本書得出機器學(xué)習(xí)在資產(chǎn)定價領(lǐng)域有廣泛應(yīng)用空間。
馬甜、中央民族大學(xué)經(jīng)濟學(xué)院講師,本科和碩士就讀于北京航空航天大學(xué)可靠性與系統(tǒng)工程學(xué)院,博士畢業(yè)于中央財經(jīng)大學(xué)金融學(xué)院。主要研究方向為機器學(xué)習(xí)與資產(chǎn)定價,相關(guān)研究成果發(fā)表于《經(jīng)濟學(xué)(季刊)》《管理科學(xué)學(xué)報》、JournalofEmpiricalFinance等國內(nèi)外權(quán)威金融雜志。主持國家自然科學(xué)基金青年項目。
第一章緒論1
第一節(jié)研究背景2
第二節(jié)研究內(nèi)容和方法6
第三節(jié)研究意義及創(chuàng)新10
第四節(jié)本書結(jié)構(gòu)18
第二章文獻綜述21
第一節(jié)資產(chǎn)定價的理論模型發(fā)展歷程23
第二節(jié)資產(chǎn)定價中的異象特征36
第三節(jié)機器學(xué)習(xí)與資產(chǎn)定價44
第四節(jié)文獻述評51
第三章數(shù)據(jù)構(gòu)建及機器學(xué)習(xí)模型設(shè)定55
第一節(jié)中國股市收益和特征數(shù)據(jù)56
第二節(jié)機器學(xué)習(xí)模型設(shè)定68
第三節(jié)本章小節(jié)86
第四章機器學(xué)習(xí)與中國股市系統(tǒng)性風(fēng)險測度—基于貝塔異象視角的研究87
第一節(jié)理論模型和數(shù)據(jù)統(tǒng)計89
第二節(jié)第二節(jié)基于機器學(xué)習(xí)的動態(tài)CAPM模型93
第三節(jié)基于Fama-French三因子模型的探討101
第四節(jié)穩(wěn)健性檢驗104
第五節(jié)本章小結(jié)105
第五章基于機器學(xué)習(xí)的中國股市收益預(yù)測研究107
第一節(jié)個股橫截面收益預(yù)測109
第二節(jié)投資組合分析115
第三節(jié)本章小節(jié)124
第六章機器學(xué)習(xí)模型的可解釋性與經(jīng)濟機制分析127
第一節(jié)經(jīng)濟重要度分析129
第二節(jié)因子重要度分析130
第三節(jié)深度學(xué)習(xí)因子的微觀經(jīng)濟機制研究132
第四節(jié)深度學(xué)習(xí)因子的宏觀經(jīng)濟機制分析137
第五節(jié)本章小節(jié)143
第七章結(jié)論與展望145
第一節(jié)主要結(jié)論146
第二節(jié)啟示150
第三節(jié)研究不足和未來研究展望152
參考文獻155
附錄169
附錄一:企業(yè)微觀層面特征變量構(gòu)建方法170
附錄二:機器學(xué)習(xí)模型的超參數(shù)設(shè)定180
后記184
第一節(jié)研究背景
對收益與風(fēng)險的解釋和預(yù)測是資產(chǎn)定價領(lǐng)域的核心議題。無論是橫截面上的個股收益比較還是市場或指數(shù)的時序收益預(yù)測,核心問題在于確定合適的資產(chǎn)定價模型。傳統(tǒng)的資本資產(chǎn)定價模型CAPM基于Markowitz的均值-方差組合理論設(shè)定,認為股票或組合的超額收益來源于其包含的系統(tǒng)風(fēng)險。后續(xù)的套利定價模型APT和經(jīng)典的Fama-French因子模型指出影響收益的因素不只市場因子,還應(yīng)包括其他諸如企業(yè)基本面和宏觀環(huán)境等因子變量,即多因子模型。多因子模型的提出極大地豐富了資產(chǎn)定價領(lǐng)域的探索度,眾多傳統(tǒng)模型無法解釋的異象被發(fā)現(xiàn)并構(gòu)造成為定價因子,形成了因子動物園(FactorZoo)。
目前,學(xué)術(shù)界對于資產(chǎn)定價研究缺乏高維視角的探索。到目前為止,我們已經(jīng)發(fā)現(xiàn)了大量具備預(yù)測能力的企業(yè)特征,而很多研究文獻仍然只使用了少量的因子數(shù)。相當(dāng)一部分橫截面股票收益預(yù)測的研究工作將重點放在少量的公司特征的挖掘和回歸上,如公司規(guī)模、盈利能力或公司賬面市值比等。鑒于大量因子變量與收益預(yù)測和構(gòu)建基于因子的投資組合的潛在相關(guān)性,關(guān)注如此少的變量實際上意味著研究者采用了非常高程度的稀疏性模型。即在成百上千的潛在因子中,通過正則化將絕大多數(shù)特征的影響都降低為零。
但上述變量選擇過程具有相當(dāng)?shù)闹饔^性,且我們無法獲知在引入息優(yōu)勢。與此同時,近年來可以充分捕捉預(yù)期股票收益的有效因子數(shù)量一直呈上升趨勢。從最早的FamaandFrench(1993)三因子模型,到Fama-French五因子模型,以及后續(xù)更多異象因子的發(fā)現(xiàn)(圖1-1),資產(chǎn)定價正在走入大數(shù)據(jù)時代。新的時代背景帶來新的研究挑戰(zhàn),如對于眾多特征異象有效性的聯(lián)合檢驗,異象之間的冗余關(guān)系,新異象對于定價模型的邊際貢獻度以及異象的重要度排序等,這些問題無法通過傳統(tǒng)計量模型進行解釋,而需要以高維視角結(jié)合機器學(xué)習(xí)進行探討研究。
不只是學(xué)術(shù)研究,現(xiàn)實世界中的投資者在進行資產(chǎn)配置決策時同樣面臨高維數(shù)據(jù)問題。理性的投資者基于資產(chǎn)價格進行投資,資產(chǎn)價格反映了投資者對未來資產(chǎn)收益的預(yù)期。近年來,隨著新媒體的快速發(fā)展,投資者面臨著如何從大量潛在預(yù)測變量中獲取有效信息進行預(yù)測的困擾,F(xiàn)有的研究框架將投資者認知簡單地設(shè)定為只包含少量參數(shù)的低維模型,并不能充分地反映當(dāng)下的高維數(shù)據(jù)環(huán)境。
面對金融大數(shù)據(jù)帶來的挑戰(zhàn),機器學(xué)習(xí)算法的改進和應(yīng)用已成為近年來學(xué)術(shù)研究的熱點。機器學(xué)習(xí)將訓(xùn)練數(shù)據(jù)輸入計算機進行學(xué)習(xí),并利用訓(xùn)練后的模型進行預(yù)測研究。例如,在圖像識別中,通過將食物圖像分為包含水果和不包含水果兩類,算法在訓(xùn)練集中學(xué)習(xí)各圖像像素與食物分類之間的關(guān)系。在完成訓(xùn)練后該算法就可以用來預(yù)測尚未進行分類的圖像中是否包含水果。機器學(xué)習(xí)模型在訓(xùn)練過程中可以有效處理高維數(shù)據(jù),避免傳統(tǒng)回歸模型如最小二乘回歸(OLS)等統(tǒng)計工具的過擬合問題。雖然機器學(xué)習(xí)在諸多工程領(lǐng)域中表現(xiàn)優(yōu)異,但其在金融市場的應(yīng)用并不能通過簡單的移植來完成。其主要原因在于金融數(shù)據(jù)自身特有的性質(zhì)。首先是信噪比問題,由于存在巨大的市場噪聲,金融數(shù)據(jù)的信噪比往往較低,此外有效市場假說理論表明一個完全有效的市場是無法利用過往信息獲取超額收益的,雖然現(xiàn)實中并不存在這樣一個完美市場,但市場交易者套利行為的存在的確會消化大部分有效信息,降低歷史數(shù)據(jù)的有效性。由此帶來的另一個問題是市場結(jié)構(gòu)的周期變化,新信息的不斷構(gòu)建和消化帶來了定價模型的動態(tài)變化,正如一張隨時變化的“臉”使得面部識別不再有效一樣,這種波動使得模型預(yù)測變得復(fù)雜和困難。
金融數(shù)據(jù)的第二個特點在于其較短的樣本量,F(xiàn)代化股票市場成立不過百年,相比其他人工智能項目,更多新金融數(shù)據(jù)的獲取只能依靠時間的推移產(chǎn)生。而相比結(jié)構(gòu)化面板數(shù)據(jù),非結(jié)構(gòu)化的新興媒體數(shù)據(jù)誕生的時間更晚,受限的數(shù)據(jù)量約束了模型的估計和驗證過程。
機器學(xué)習(xí)的可解釋性研究同樣十分必要。一些機器學(xué)習(xí)模型為典型的“黑箱”結(jié)構(gòu),雖然擁有優(yōu)異的預(yù)測和分類能力,但理論解釋卻十分匱乏。而對于金融市場的參與者來說,了解模型的傳遞機理是非常重要的。其意義在于:第一,可以了解模型定價機理;第二,在模型發(fā)生失效時可以及時做出調(diào)整。傳統(tǒng)資產(chǎn)定價模型如Fama-French三因子模型認為超額回報可由市場資產(chǎn)組合、市值因子和賬面市值比因子來解釋,