![]() ![]() |
城市計(jì)算 鄭宇 ![]()
本書概述了城市計(jì)算的定義、框架和主要研究問題,以典型應(yīng)用為案例著重介紹大數(shù)據(jù)中異構(gòu)數(shù)據(jù)的融合和協(xié)同計(jì)算技術(shù)。
本書由京東集團(tuán)副總裁、城市計(jì)算業(yè)務(wù)單元的負(fù)責(zé)人鄭宇博士所著,詳細(xì)介紹了城市計(jì)算的基本概念、方法論、關(guān)鍵技術(shù)及其在各個領(lǐng)域的應(yīng)用案例,其中包括大數(shù)據(jù)分析、物聯(lián)網(wǎng)、人工智能、地理信息系統(tǒng)等現(xiàn)代信息技術(shù)在城市計(jì)算中的應(yīng)用,以及城市規(guī)劃、交通、環(huán)境、能源等領(lǐng)域的具體實(shí)踐。通過這些案例,讀者可以了解城市計(jì)算如何助力城市解決實(shí)際問題,實(shí)現(xiàn)高質(zhì)量發(fā)展。
前 言
快速的城市化導(dǎo)致了許多大城市的擴(kuò)張,在使生活變得現(xiàn)代化的同時,也帶來了巨大的挑戰(zhàn),如空氣污染、能源消耗和交通擁堵等?紤]到城市的復(fù)雜和動態(tài)環(huán)境,幾年前要應(yīng)對這些挑戰(zhàn)似乎是不可能的。而現(xiàn)在,感知技術(shù)和大規(guī)模計(jì)算基礎(chǔ)設(shè)施已經(jīng)產(chǎn)生了各種大數(shù)據(jù),如人類流動、氣象、交通模式和地理數(shù)據(jù)等。了解相應(yīng)的大數(shù)據(jù)意味著對一座城市有了充分的了解。如果對大數(shù)據(jù)的使用得當(dāng),將有助于我們應(yīng)對這些挑戰(zhàn)。此外,云計(jì)算和人工智能等計(jì)算技術(shù)的興起為我們提供了前所未有的數(shù)據(jù)處理能力。 在這種情況下,城市計(jì)算作為一個跨學(xué)科領(lǐng)域蓬勃發(fā)展,并將計(jì)算機(jī)科學(xué)與傳統(tǒng)的城市相關(guān)領(lǐng)域(如城市規(guī)劃、交通、環(huán)境科學(xué)、能源工程、經(jīng)濟(jì)學(xué)和社會學(xué)等)相結(jié)合。城市計(jì)算旨在釋放城市數(shù)據(jù)中的知識力量,解決城市中的重大問題,從而實(shí)現(xiàn)人、城市運(yùn)營系統(tǒng)和環(huán)境之間的三贏。簡而言之,城市計(jì)算將通過大數(shù)據(jù)、云計(jì)算、人工智能等先進(jìn)計(jì)算技術(shù)來應(yīng)對城市挑戰(zhàn)。 多年來,人們一直在討論智慧城市的愿景,希望整合多種信息和通信技術(shù)來源來提高生活質(zhì)量。然而,目前尚不清楚如何實(shí)現(xiàn)這樣一個廣闊的愿景。城市計(jì)算沒有停留在對智慧城市愿景無休止的討論中,而是在以數(shù)據(jù)為中心的計(jì)算框架中通過具體的方法來應(yīng)對特定的城市挑戰(zhàn),該框架包括城市感知、城市數(shù)據(jù)管理、城市數(shù)據(jù)分析及所提供服務(wù)。 盡管已有其他幾本關(guān)于城市信息學(xué)的書,但這是一本專門研究城市計(jì)算的書,涵蓋范圍廣泛,敘述嚴(yán)謹(jǐn)。本書從計(jì)算機(jī)科學(xué)的角度介紹了城市計(jì)算的一般框架、關(guān)鍵研究問題、方法和應(yīng)用。具體地,本書專注于數(shù)據(jù)和計(jì)算,將城市計(jì)算與基于經(jīng)典模型和經(jīng)驗(yàn)假設(shè)的傳統(tǒng)城市科學(xué)區(qū)分開來。 本書面向高年級本科生、研究生、研究人員和專業(yè)人士,涵蓋了城市計(jì)算領(lǐng)域的主要基礎(chǔ)知識和關(guān)鍵高級主題。每一章都是一個教程,介紹城市計(jì)算的一個重要方面,并為相關(guān)研究提供許多有價值的參考。本書為研究人員和應(yīng)用程序開發(fā)人員全面講解了城市感知、城市數(shù)據(jù)管理、城市數(shù)據(jù)分析及所提供服務(wù)的一般概念、技術(shù)和應(yīng)用,幫助讀者探索這一領(lǐng)域并開發(fā)新的方法和應(yīng)用程序,最終實(shí)現(xiàn)更綠色、更智能的城市。本書也為研究生和其他感興趣的讀者提供了城市計(jì)算研究領(lǐng)域的最新進(jìn)展。 本書根據(jù)城市計(jì)算的框架進(jìn)行組織,如下圖所示,由四個部分組成:概念和框架、城市感知與數(shù)據(jù)采集、城市數(shù)據(jù)管理、城市數(shù)據(jù)分析。 圖 城市計(jì)算框架 本書的第一部分(第1章和第2章)給出城市計(jì)算的概述。 第1章介紹了城市計(jì)算的關(guān)鍵概念和框架,從計(jì)算機(jī)科學(xué)的角度討論了框架各層面臨的主要挑戰(zhàn)。介紹了城市的數(shù)據(jù)來源,根據(jù)數(shù)據(jù)結(jié)構(gòu)和時空特性將城市數(shù)據(jù)分為六類。該章末尾列出了一些公共數(shù)據(jù)集。 第2章介紹了城市計(jì)算在不同領(lǐng)域的典型應(yīng)用,包括交通、城市規(guī)劃、環(huán)境保護(hù)、能源、經(jīng)濟(jì)、公共安全以及社交和娛樂領(lǐng)域。這些應(yīng)用拓寬了我們的視野,提出了新的研究課題,也激發(fā)了新的想法。 本書的第二部分(第3章)介紹了數(shù)據(jù)的來源和收集方法。 第3章介紹了城市感知的四種范式,包括靜態(tài)感知、移動感知、被動人群感知和主動人群感知。前兩種范式屬于以傳感器為中心的感知,后兩種范式屬于以人為中心的感知。對于以傳感器為中心的感知模式,介紹了四種傳感器部署模型。對于以人為中心的感知范式,提出了參與者招募和任務(wù)設(shè)計(jì)的技術(shù)。最后介紹了三類模型,包括空間模型、時間模型和時空模型,用于填補(bǔ)地質(zhì)傳感器數(shù)據(jù)中的缺失值。 本書的第三部分由第4~6章組成,介紹了空間數(shù)據(jù)和時空數(shù)據(jù)的數(shù)據(jù)管理。從基本的索引和檢索算法開始,討論了使用云計(jì)算平臺來管理空間數(shù)據(jù)和時空數(shù)據(jù)的技術(shù)。 第4章首先從建立索引、服務(wù)時空范圍查詢、服務(wù)最近鄰查詢和更新索引四個角度介紹了四種廣泛使用的空間數(shù)據(jù)索引結(jié)構(gòu),包括基于網(wǎng)格的索引、基于四叉樹的索引、k-d樹和R樹。然后介紹了管理時空數(shù)據(jù)的技術(shù),包括移動對象數(shù)據(jù)庫和軌跡數(shù)據(jù)管理。前者更關(guān)心移動對象在(通常是最近的)時間戳上的具體位置,后者涉及移動對象在給定時間間隔內(nèi)經(jīng)過的連續(xù)運(yùn)動(例如路徑)。關(guān)于移動對象數(shù)據(jù)庫,描述了三種查詢和兩種索引方法。一種索引方法在每個時間戳上建立一個空間索引,并在連續(xù)的時間間隔內(nèi)重用索引的未更改子結(jié)構(gòu)。另一種索引方法將時間視為第三維度,將空間索引結(jié)構(gòu)從管理二維空間數(shù)據(jù)擴(kuò)展到管理三維時空數(shù)據(jù)。關(guān)于軌跡數(shù)據(jù)管理,提出了三種類型的查詢,包括范圍查詢、k近鄰查詢和路徑查詢,還為軌跡數(shù)據(jù)設(shè)計(jì)了不同距離度量。最后介紹了用于管理多個數(shù)據(jù)集的混合索引結(jié)構(gòu)。 第5章從存儲、計(jì)算和應(yīng)用程序接口的角度介紹了云計(jì)算平臺中的主要組件。使用Microsoft Azure作為示例平臺來描述每個組件的框架和一般使用過程。Microsoft Azure中的存儲進(jìn)一步由SQL Server、Azure存儲和Redis組成。Microsoft Azure計(jì)算資源包括虛擬機(jī)、云服務(wù)和HDInsight。HDInsight是Microsoft Azure中的一個分布式計(jì)算組件,用于執(zhí)行大規(guī)模數(shù)據(jù)預(yù)處理、管理和挖掘,并包含廣泛使用的Hadoop、Spark和Storm。Azure提供的應(yīng)用程序接口由Web應(yīng)用程序、移動應(yīng)用程序和API應(yīng)用程序組成。這些組件確保了城市計(jì)算應(yīng)用程序的順利和可靠實(shí)現(xiàn)。 第6章介紹了分別為六種類型的時空數(shù)據(jù)設(shè)計(jì)的數(shù)據(jù)管理方案,這些方案使當(dāng)前的云計(jì)算平臺能夠以最小的工作量管理海量和動態(tài)的時空數(shù)據(jù)。對于每種類型的數(shù)據(jù),根據(jù)是否使用空間索引或時空索引以及是否將其部署在分布式系統(tǒng)上,提出了四種數(shù)據(jù)管理方案。不是從根本上重建一個新的平臺,而是利用當(dāng)前云上的現(xiàn)有資源和架構(gòu),如云存儲和HDInsight,為空間數(shù)據(jù)和時空數(shù)據(jù)創(chuàng)建一個增強(qiáng)的數(shù)據(jù)管理平臺。四種方案中最高級的數(shù)據(jù)管理方案將空間索引和時空索引(例如,基于網(wǎng)格的索引、R樹和3D R樹)集成到分布式計(jì)算系統(tǒng)中,如HDInsight中的Spark和Storm。這種高級的方案結(jié)合了雙方的優(yōu)勢,使我們能夠更高效地處理更大規(guī)模的時空數(shù)據(jù),同時使用更少的計(jì)算資源。 本書的第四部分由第7~10章組成,介紹了從城市數(shù)據(jù)中挖掘知識的基本技術(shù)和高級主題。從基本的數(shù)據(jù)挖掘算法開始,介紹了針對時空數(shù)據(jù)設(shè)計(jì)的高級機(jī)器學(xué)習(xí)技術(shù)以及跨領(lǐng)域知識融合方法。最后討論了城市計(jì)算的一些高級主題,如選擇有用的數(shù)據(jù)集、軌跡數(shù)據(jù)挖掘、將數(shù)據(jù)管理與機(jī)器學(xué)習(xí)相結(jié)合以及交互式視覺數(shù)據(jù)分析等。 第7章介紹了數(shù)據(jù)挖掘的一般框架,包括兩個主要部分:數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析。數(shù)據(jù)預(yù)處理部分又包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)集成。數(shù)據(jù)分析由各種數(shù)據(jù)挖掘模型、結(jié)果表示和評估組成。根據(jù)模型要完成的任務(wù),數(shù)據(jù)挖掘模型可以分為五大類:頻繁模式挖掘、聚類、分類、回歸和異常值檢測。對于每一類模型,該章在從空間數(shù)據(jù)和時空數(shù)據(jù)中挖掘知識的背景下介紹了其總體思想和具體示例。 第8章首先討論了時空數(shù)據(jù)與圖像和文本數(shù)據(jù)相比的不同性質(zhì)?臻g屬性包括空間距離和空間層次。時間屬性由時間接近度、周期和趨勢組成。這些獨(dú)特的屬性使得需要專門為時空數(shù)據(jù)設(shè)計(jì)高級機(jī)器學(xué)習(xí)算法。然后,該章介紹了時空數(shù)據(jù)背景下六類機(jī)器學(xué)習(xí)算法(包括協(xié)同過濾、矩陣分解、張量分解、概率圖模型、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí))的原理,并提供了豐富的實(shí)例來展示這些機(jī)器學(xué)習(xí)算法應(yīng)該如何適應(yīng)時空數(shù)據(jù)。例如,耦合矩陣分解被設(shè)計(jì)為能夠進(jìn)行位置推薦和交通狀況估計(jì)。貝葉斯網(wǎng)絡(luò)用于推斷交通量、進(jìn)行地圖匹配和發(fā)現(xiàn)區(qū)域的潛在功能。特定的馬爾可夫隨機(jī)場用于預(yù)測用戶的交通方式和一個地方的空氣質(zhì)量。最后提出了一個獨(dú)特的專門用于預(yù)測城市中每個地區(qū)的人群流量的深度學(xué)習(xí)模型。 傳統(tǒng)的數(shù)據(jù)挖掘通常處理來自單個域的數(shù)據(jù)。在大數(shù)據(jù)時代,我們面臨著來自不同領(lǐng)域不同來源的無數(shù)數(shù)據(jù)集。這些數(shù)據(jù)集由多個模態(tài)組成,每個模態(tài)都有不同的表示、分布、規(guī)模和密度。融合多個數(shù)據(jù)集的目的包括填充缺失值、預(yù)測未來、推斷因果關(guān)系、分析對象、排序和檢測異常。在大數(shù)據(jù)研究中,能夠釋放多個不同(但可能有關(guān))數(shù)據(jù)集中知識的能量至關(guān)重要,這從本質(zhì)上區(qū)分了大數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)挖掘任務(wù)。這就需要高級的技術(shù),以在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘任務(wù)中有機(jī)地融合來自各種數(shù)據(jù)集的知識。第9章介紹了三類知識融合方法,包括基于階段的方法、基于特征的方法和基于語義意義的方法。最后一類融合方法進(jìn)一步分為四組:基于多視圖、基于相似性、基于概率依賴和基于遷移學(xué)習(xí)的方法。這些方法側(cè)重于知識融合,而不是模式映射和數(shù)據(jù)合并,顯著區(qū)分了跨領(lǐng)域數(shù)據(jù)融合和數(shù)據(jù)庫社區(qū)中研究的傳統(tǒng)數(shù)據(jù)融合。該章不僅介紹了每一類方法的原理,還介紹了使用這些技術(shù)處理真實(shí)大數(shù)據(jù)問題的有價值的示例。此外,該章將現(xiàn)有的研究放在一個框架內(nèi),探討了不同知識融合方法之間的關(guān)系和差異。 第10章在前幾章介紹的基本技術(shù)的基礎(chǔ)上討論了一些城市數(shù)據(jù)分析的高級主題。第一,給定一個城市計(jì)算問題,通常需要確定應(yīng)該選擇哪些數(shù)據(jù)集來解決給定問題。通過選擇正確的數(shù)據(jù)集,我們更有可能高效地解決問題。第二,軌跡數(shù)據(jù)具有復(fù)雜的數(shù)據(jù)模型,包含了關(guān)于移動對象的豐富知識,從而需要獨(dú)特的數(shù)據(jù)挖掘技術(shù)。第三,從大規(guī)模數(shù)據(jù)集中提取具有深遠(yuǎn)意義的知識需要高效的數(shù)據(jù)管理技術(shù)和有效的機(jī)器學(xué)習(xí)模型,這兩種技術(shù)的有機(jī)結(jié)合對于完成城市計(jì)算任務(wù)是必不可少的。第四,解決城市計(jì)算問題需要數(shù)據(jù)科學(xué)知識和領(lǐng)域知識。如何將人類智能與機(jī)器智能相結(jié)合是一個值得討論的前沿課題。交互式視覺數(shù)據(jù)分析可能是解決這一問題的一種方法。 對于年輕且不斷發(fā)展的城市計(jì)算領(lǐng)域,希望本書能提供有益的參考并且是一本實(shí)用的教程。 鄭 宇
鄭宇
京東金融的副總裁和首席數(shù)據(jù)科學(xué)家,致力于利用大數(shù)據(jù)和人工智能技術(shù)應(yīng)對城市挑戰(zhàn)。他是城市計(jì)算業(yè)務(wù)單元的負(fù)責(zé)人,同時擔(dān)任京東智能城市研究院院長。在加入京東集團(tuán)之前,他曾在微軟研究院擔(dān)任高級研究員,研究興趣包括大數(shù)據(jù)分析、時空數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能。 鄭宇多次出現(xiàn)在有影響力的期刊上,2013年,被《麻省理工科技論》評為“35歲以下最具創(chuàng)新力人士”(簡稱 TR35),并因他在城市計(jì)算方面的研究而登上《時代》雜志。2014年,由于自2008年以來他一直倡導(dǎo)的城市計(jì)算對商業(yè)的影響,被《財(cái)富》雜志評為“中國四十位40歲以下商界精英”。2016年,鄭宇被提名為 ACM 杰出科學(xué)家。2017年,被評為“中國十大 AI 創(chuàng)新者”之一。
目 錄
譯者序 前言 致謝 關(guān)于作者 第一部分 概念和框架 第1章 概述2 1.1 引言2 1.2 城市計(jì)算的定義3 1.3 總體框架3 1.3.1 簡述和示例3 1.3.2 各層功能4 1.4 城市計(jì)算的關(guān)鍵挑戰(zhàn)6 1.4.1 城市感知挑戰(zhàn)7 1.4.2 城市數(shù)據(jù)管理挑戰(zhàn)10 1.4.3 城市數(shù)據(jù)分析挑戰(zhàn)11 1.4.4 城市服務(wù)挑戰(zhàn)14 1.5 城市數(shù)據(jù)18 1.5.1 城市數(shù)據(jù)的分類18 1.5.2 地理數(shù)據(jù)20 1.5.3 道路網(wǎng)絡(luò)上的交通數(shù)據(jù)21 1.5.4 移動電話數(shù)據(jù)22 1.5.5 通勤數(shù)據(jù)22 1.5.6 環(huán)境監(jiān)測數(shù)據(jù)23 1.5.7 社交網(wǎng)絡(luò)數(shù)據(jù)25 1.5.8 能源25 1.5.9 經(jīng)濟(jì)25 1.5.10 醫(yī)療保健26 1.6 公共數(shù)據(jù)集26 參考文獻(xiàn)27 第2章 城市計(jì)算應(yīng)用33 2.1 引言33 2.2 用于城市規(guī)劃的城市計(jì)算33 2.2.1 揭示交通網(wǎng)絡(luò)中的潛在問題33 2.2.2 發(fā)現(xiàn)功能區(qū)域35 2.2.3 檢測城市邊界36 2.2.4 設(shè)施和資源部署37 2.3 用于交通系統(tǒng)的城市計(jì)算39 2.3.1 改善駕駛體驗(yàn)39 2.3.2 改善出租車服務(wù)41 2.3.3 改善公交服務(wù)43 2.3.4 地鐵服務(wù)44 2.3.5 自行車共享系統(tǒng)45 2.4 用于環(huán)境的城市計(jì)算47 2.4.1 空氣質(zhì)量47 2.4.2 噪聲污染50 2.4.3 城市水資源52 2.5 用于城市能源消耗的城市計(jì)算54 2.5.1 汽油消耗54 2.5.2 電力消耗55 2.6 用于社交應(yīng)用的城市計(jì)算56 2.6.1 基于位置的社交網(wǎng)絡(luò)概念56 2.6.2 理解基于位置的社交網(wǎng)絡(luò)中的用戶56 2.6.3 位置推薦57 2.7 用于經(jīng)濟(jì)服務(wù)的城市計(jì)算58 2.7.1 商業(yè)位置選擇58 2.7.2 優(yōu)化城市物流60 2.8 用于公共安全和保障的城市計(jì)算61 2.8.1 檢測城市異常61 2.8.2 預(yù)測人群流動63 2.9 總結(jié)64 參考文獻(xiàn)64 第二部分 城市感知與數(shù)據(jù)采集 第3章 城市感知80 3.1 引言80 3.1.1 城市感知的四種范式80 3.1.2 城市感知的一般框架82 3.2 傳感器和設(shè)施部署84 3.2.1 尋找最佳匯合點(diǎn)84 3.2.2 最大化覆蓋范圍86 3.2.3 學(xué)習(xí)排序候選位置89 3.2.4 最小化不確定性91 3.3 以人為中心的城市感知92 3.3.1 數(shù)據(jù)評估93 3.3.2 參與者招募與任務(wù)設(shè)計(jì)94 3.4 補(bǔ)充缺失值96 3.4.1 問題與挑戰(zhàn)96 3.4.2 空間模型97 3.4.3 時間模型100 3.4.4 時空模型102 3.5 總結(jié)104 參考文獻(xiàn)104 第三部分 城市數(shù)據(jù)管理 第4章 時空數(shù)據(jù)管理110 4.1 引言110 4.1.1 數(shù)據(jù)結(jié)構(gòu)110 4.1.2 查詢110 4.1.3 索引111 4.1.4 檢索算法112 4.2 數(shù)據(jù)結(jié)構(gòu)113 4.2.1 基于點(diǎn)的空間靜態(tài)數(shù)據(jù)113 4.2.2 基于點(diǎn)的空間時間序列數(shù)據(jù)114 4.2.3 基于點(diǎn)的時空數(shù)據(jù)114 4.2.4 基于網(wǎng)絡(luò)的空間靜態(tài)數(shù)據(jù)115 4.2.5 基于網(wǎng)絡(luò)的空間時間序列數(shù)據(jù)115 4.2.6 基于網(wǎng)絡(luò)的時空數(shù)據(jù)116 4.3 空間數(shù)據(jù)管理117 4.3.1 基于網(wǎng)格的空間索引117 4.3.2 基于四叉樹的空間索引118 4.3.3 基于k-d樹的空間索引120 4.3.4 基于R樹的空間索引123 4.4 時空數(shù)據(jù)管理126 4.4.1 管理空間靜態(tài)時間動態(tài)數(shù)據(jù)126 4.4.2 移動對象數(shù)據(jù)庫127 4.4.3 軌跡數(shù)據(jù)管理131 4.5 管理多個數(shù)據(jù)集的混合索引138 4.5.1 查詢和動機(jī)138 4.5.2 空間關(guān)鍵詞139 4.5.3 管理多個數(shù)據(jù)集的索引145 4.6 總結(jié)147 參考文獻(xiàn)148 第5章 云計(jì)算導(dǎo)論152 5.1 引言152 5.2 存儲153 5.2.1 SQL數(shù)據(jù)庫153 5.2.2 Azure存儲155 5.2.3 Redis緩存162 5.3 計(jì)算163 5.3.1 虛擬機(jī)163 5.3.2 云服務(wù)164 5.3.3 HDInsight166 5.4 應(yīng)用176 5.4.1 Web應(yīng)用177 5.4.2 移動應(yīng)用178 5.4.3 API應(yīng)用179 5.5 總結(jié)179 參考文獻(xiàn)179 第6章 在云端管理時空數(shù)據(jù)182 6.1 引言182 6.1.1 挑戰(zhàn)182 6.1.2 云上的通用數(shù)據(jù)管理方案183 6.2 管理基于點(diǎn)的數(shù)據(jù)184 6.2.1 管理基于點(diǎn)的時空靜態(tài)數(shù)據(jù)184 6.2.2 管理基于點(diǎn)的空間靜態(tài)時間動態(tài)數(shù)據(jù)188 6.2.3 管理基于點(diǎn)的時空動態(tài)數(shù)據(jù)192 6.3 管理基于網(wǎng)絡(luò)的數(shù)據(jù)196 6.3.1 管理時空靜態(tài)網(wǎng)絡(luò)196 6.3.2 管理基于網(wǎng)絡(luò)的空間靜態(tài)時間動態(tài)數(shù)據(jù)200 6.3.3 管理基于網(wǎng)絡(luò)的時空動態(tài)數(shù)據(jù)203 6.4 城市大數(shù)據(jù)平臺206 6.5 總結(jié)208 第四部分 城市數(shù)據(jù)分析 第7章 城市數(shù)據(jù)的基本數(shù)據(jù)挖掘技術(shù)210 7.1 引言210 7.1.1 數(shù)據(jù)挖掘的一般框架210 7.1.2 數(shù)據(jù)挖掘與相關(guān)技術(shù)之間的關(guān)系212 7.2 數(shù)據(jù)預(yù)處理214 7.2.1 數(shù)據(jù)清洗214 7.2.2 數(shù)據(jù)轉(zhuǎn)換216 7.2.3 數(shù)據(jù)集成217 7.3 頻繁模式挖掘和關(guān)聯(lián)規(guī)則222 7.3.1 基本概念222 7.3.2 頻繁項(xiàng)集挖掘方法224 7.3.3 序列模式挖掘227 7.3.4 頻繁子圖模式挖掘232 7.4 聚類234 7.4.1 概念234 7.4.2 劃分聚類方法235 7.4.3 密度聚類方法236 7.4.4 層次聚類方法240 7.5 分類241 7.5.1 概念241 7.5.2 樸素貝葉斯分類法243 7.5.3 決策樹244 7.5.4 支持向量機(jī)246 7.5.5 不平衡數(shù)據(jù)的分類248 7.6 回歸250 7.6.1 線性回歸250 7.6.2 自回歸252 7.6.3 回歸樹253 7.7 異常值檢測255 7.7.1 基于鄰近性的異常值檢測255 7.7.2 基于統(tǒng)計(jì)的異常值檢測258 7.8 總結(jié)260 參考文獻(xiàn)261 第8章 用于時空數(shù)據(jù)的高級機(jī)器學(xué)習(xí)技術(shù)266 8.1 引言266 8.2 時空數(shù)據(jù)的獨(dú)特性質(zhì)266 8.2.1 空間屬性266 8.2.2 時間屬性268 8.3 協(xié)同過濾269 8.3.1 基本模型:基于用戶和基于物品270 8.3.2 時空數(shù)據(jù)的協(xié)同過濾272 8.4 矩陣分解275 8.4.1 基本矩陣分解方法275 8.4.2 時空數(shù)據(jù)的矩陣分解277 8.5 張量分解279 8.5.1 張量的基本概念279 8.5.2 張量分解方法281 8.5.3 時空數(shù)據(jù)的張量分解283 8.6 概率圖模型287 8.6.1 一般概念287 8.6.2 貝葉斯網(wǎng)絡(luò)288 8.6.3 馬爾可夫隨機(jī)場294 8.6.4 用于時空數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)295 8.6.5 用于時空數(shù)據(jù)的馬爾可夫網(wǎng)絡(luò)304 8.7 深度學(xué)習(xí)308 8.7.1 人工神經(jīng)網(wǎng)絡(luò)309 8.7.2 卷積神經(jīng)網(wǎng)絡(luò)311 8.7.3 循環(huán)神經(jīng)網(wǎng)絡(luò)314 8.7.4 用于時空數(shù)據(jù)的深度學(xué)習(xí)316 8.8 強(qiáng)化學(xué)習(xí)319 8.8.1 強(qiáng)化學(xué)習(xí)的概念319 8.8.2 表格動作值方法321 8.8.3 近似方法325 8.9 總結(jié)327 參考文獻(xiàn)328 第9章 跨領(lǐng)域知識融合334 9.1 引言334 9.1.1 與傳統(tǒng)數(shù)據(jù)集成的關(guān)系335 9.1.2 與異構(gòu)信息網(wǎng)絡(luò)的關(guān)系336 9.2 基于階段的知識融合337 9.3 基于特征的知識融合339 9.3.1 特征連接與正則化339 9.3.2 基于深度學(xué)習(xí)的知識融合341 9.4 基于語義意義的知識融合343 9.4.1 基于多視圖的知識融合343 9.4.2 基于相似性的知識融合347 9.4.3 基于概率依賴的知識融合351 9.4.4 基于遷移學(xué)習(xí)的知識融合352 9.5 不同融合方法的比較357 9.5.1 數(shù)據(jù)集的體積、特征和洞察358 9.5.2 機(jī)器學(xué)習(xí)任務(wù)的目標(biāo)358 9.5.3 機(jī)器學(xué)習(xí)算法的學(xué)習(xí)方法359 9.5.4 效率和可擴(kuò)展性359 9.6 總結(jié)359 參考文獻(xiàn)360 第10章 城市數(shù)據(jù)分析的高級主題365 10.1 如何選擇有用的數(shù)據(jù)集365 10.1.1 理解目標(biāo)問題366 10.1.2 數(shù)據(jù)背后的信息366 10.1.3 驗(yàn)證假設(shè)367 10.2 軌跡數(shù)據(jù)挖掘370 10.2.1 軌跡數(shù)據(jù)371 10.2.2 軌跡預(yù)處理372 10.2.3 軌跡數(shù)據(jù)管理379 10.2.4 軌跡中的不確定性379 10.2.5 軌跡模式挖掘381 10.2.6 軌跡分類385 10.2.7 從軌跡中檢測異常386 10.2.8 將軌跡轉(zhuǎn)換到其他表示形式387 10.3 將機(jī)器學(xué)習(xí)與數(shù)據(jù)管理相結(jié)合391 10.3.1 動機(jī)391 10.3.2 使用索引結(jié)構(gòu)加速機(jī)器學(xué)習(xí)393 10.3.3 縮減機(jī)器學(xué)習(xí)的候選對象396 10.3.4 導(dǎo)出邊界以修剪機(jī)器學(xué)習(xí)的計(jì)算空間397 10.4 交互式視覺數(shù)據(jù)分析397 10.4.1 合并多個復(fù)雜因素398 10.4.2 在沒有先驗(yàn)知識的情況下調(diào)整參數(shù)398 10.4.3 深入挖掘結(jié)果398 10.5 總結(jié)399 參考文獻(xiàn)399
你還可能感興趣
我要評論
|