本書共8章,內(nèi)容主要包括Spark概述及入門實(shí)戰(zhàn),Spark的作業(yè)調(diào)度和資源分配算法,SparkSQL、DataFrame、Dataset的原理和實(shí)戰(zhàn),深入理解Spark數(shù)據(jù)源,流式計(jì)算的原理和實(shí)戰(zhàn),億級(jí)數(shù)據(jù)處理平臺(tái)Spark性能調(diào)優(yōu),Spark機(jī)器學(xué)習(xí)庫,Spark3.0的新特性和數(shù)據(jù)湖等。 本書適合Spark開發(fā)人
本書圍繞大數(shù)據(jù)采集、匯聚、存儲(chǔ)、計(jì)算、分析、挖掘、可視化等處理全過程,基于Flume、Kafka、HDFS、HBase、MapReduce、Spark、Hive、ECharts等主流軟件全面介紹大數(shù)據(jù)的基礎(chǔ)原理和核心技術(shù),以及人工智能、云計(jì)算和物聯(lián)網(wǎng)等大數(shù)據(jù)相關(guān)內(nèi)容,并在此基礎(chǔ)上進(jìn)一步闡述政務(wù)、商業(yè)等行業(yè)大數(shù)據(jù),以及文
本書基于Flink的穩(wěn)定版本1.13,從Flink數(shù)據(jù)處理思想開始講解,帶領(lǐng)讀者深入理解Flink的基本架構(gòu),進(jìn)而由淺入深,結(jié)合具體案例,詳細(xì)剖析了Flink中DataStreamAPI的使用,并對Flink中的時(shí)間語義、狀態(tài)、容錯(cuò)機(jī)制等重要概念進(jìn)行了詳盡的闡述。另外,本書還對實(shí)際開發(fā)中常用的FlinkSQL、CEP等
本書以數(shù)據(jù)思維為主題,以數(shù)據(jù)分析全流程為主線,融合了與數(shù)據(jù)思維相關(guān)的編程語言、統(tǒng)計(jì)學(xué)基礎(chǔ)及案例分析等內(nèi)容,全書分為4篇,囊括了數(shù)據(jù)思維的概念和培養(yǎng)方法、數(shù)據(jù)來源及體系建設(shè)、數(shù)據(jù)分析三大思維方式及用戶流失、用戶轉(zhuǎn)化實(shí)戰(zhàn)等共11章的內(nèi)容。本書囊括了數(shù)據(jù)分析中常用的分析方法,包括經(jīng)典的海盜(AARRR)模型、麥肯錫的MECE
本書詳細(xì)闡述了大數(shù)據(jù)領(lǐng)域數(shù)據(jù)采集與預(yù)處理的相關(guān)理論和技術(shù)。全書共8章,內(nèi)容包括概述、大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建、網(wǎng)絡(luò)數(shù)據(jù)采集、分布式消息系統(tǒng)Kafka、日志采集系統(tǒng)Flume、數(shù)據(jù)倉庫中的數(shù)據(jù)集成、ETL工具Kettle、使用pandas進(jìn)行數(shù)據(jù)清洗。本書在第3章至第8章中安排了豐富的實(shí)踐操作,以便讀者更好地學(xué)習(xí)和掌握數(shù)據(jù)采集
隨著科學(xué)技術(shù)的迅猛發(fā)展,具有復(fù)雜分層結(jié)構(gòu)的數(shù)據(jù)在現(xiàn)實(shí)生活中很普遍。能完全剖析這類數(shù)據(jù),發(fā)覺該類數(shù)據(jù)表象下的潛在規(guī)律性對于統(tǒng)計(jì)學(xué)等科研領(lǐng)域很有意義。本書致力于介紹復(fù)雜分層數(shù)據(jù)分析前沿知識(shí),側(cè)重于分層分位回歸理論、方法及其應(yīng)用研究。內(nèi)容主要包括三大塊:分層數(shù)據(jù)建模、分位回歸與分層-分位回歸。主要涉及到線性分層分位回歸模擬、
本書通過理論與實(shí)踐相結(jié)合的方式,深入淺出地介紹了文件系統(tǒng)的概念、原理和具體實(shí)現(xiàn)。本書涵蓋本地文件系統(tǒng)、網(wǎng)絡(luò)文件系統(tǒng)、分布式文件系統(tǒng)和對象存儲(chǔ)等內(nèi)容,可以說涵蓋了數(shù)據(jù)持久化文件系統(tǒng)的主要領(lǐng)域。為了使讀者更加深入地理解文件系統(tǒng)的原理,本書不僅介紹了文件系統(tǒng)的原理和關(guān)鍵技術(shù),還結(jié)合開源項(xiàng)目介紹了文件系統(tǒng)的實(shí)現(xiàn)細(xì)節(jié)。最后,本書
數(shù)據(jù)分析是指用適當(dāng)?shù)臄?shù)學(xué)方法對收集來的大量數(shù)據(jù)進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究及概括總結(jié)的過程。數(shù)據(jù)分析的目的在于把隱藏在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來。 數(shù)據(jù)科學(xué)是高等學(xué)校非計(jì)算機(jī)專業(yè)本科學(xué)生必修的一門公共基礎(chǔ)課程,
在處理現(xiàn)實(shí)的工程或管理問題時(shí),數(shù)據(jù)的微小波動(dòng)不可忽略且影響深遠(yuǎn),這為魯棒優(yōu)化方法的產(chǎn)生提供了契機(jī)并推動(dòng)其迅速發(fā)展.本書主要介紹了不確定決策系統(tǒng)中魯棒優(yōu)化及分布魯棒優(yōu)化方法的一些研究進(jìn)展.在魯棒優(yōu)化方面,給出了不確定集交下的一些新結(jié)果并將其應(yīng)用到可持續(xù)發(fā)展與應(yīng)急救援問題中.在分布魯棒優(yōu)化方面,介紹了隨機(jī)分布魯棒優(yōu)化及模糊
本書從計(jì)算機(jī)控制系統(tǒng)的信號(hào)轉(zhuǎn)換開始,詳細(xì)闡述了計(jì)算機(jī)控制系統(tǒng)的建模、性能分析、控制器設(shè)計(jì)及控制系統(tǒng)仿真與實(shí)現(xiàn)的理論、方法和實(shí)用技術(shù)。