123,123

<table id="ukkm6"><xmp id="ukkm6"></xmp></table>

<dl id="ukkm6"></dl>

歡迎進(jìn)入網(wǎng)上館配會(huì)薦購(gòu)選采服務(wù)平臺(tái) 圖書(shū)館單位會(huì)員注冊(cè) 圖書(shū)館讀者/館員登錄

書(shū)單推薦

·二十四節(jié)氣｜白露

·二十四節(jié)氣｜處暑

·二十四節(jié)氣｜立秋

·二十四節(jié)氣｜大暑

·二十四節(jié)氣｜夏至

·科學(xué)出版社精品典藏

·清華大學(xué)出版社—2024年度好

·二十四節(jié)氣 | 立春

新書(shū)推薦

更多

·《中國(guó)經(jīng)濟(jì)學(xué)(2025年第2輯總

·《行為博弈》

·《神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)與應(yīng)用》

·《精準(zhǔn)落實(shí)》

·《新生物學(xué)本質(zhì)主義研究》

·《賞文物話(huà)中醫(yī)》

·《把熱愛(ài)變成事業(yè)》

Spark SQL入門(mén)與實(shí)踐指南

Spark SQL入門(mén)與實(shí)踐指南

定　　價(jià)：49 元

當(dāng)前圖書(shū)已被 7 所學(xué)校薦購(gòu)過(guò)！

查看明細(xì)

作者：紀(jì)涵、靖曉文、趙政達(dá)
出版時(shí)間：2018/4/1
ISBN：9787302496700
出版社：清華大學(xué)出版社

中圖法分類(lèi)：TP274-62
頁(yè)碼：212
紙張：
版次：1
開(kāi)本：16K

9

7

4

8

9

7

6

3

7

0

0

2

0

Spark SQL是 Spark大數(shù)據(jù)框架的一部分，支持使用標(biāo)準(zhǔn)SQL查詢(xún)和HiveQL來(lái)讀寫(xiě)數(shù)據(jù)，可用于結(jié)構(gòu)化數(shù)據(jù)處理，并可以執(zhí)行類(lèi)似SQL的Spark數(shù)據(jù)查詢(xún)，有助于開(kāi)發(fā)人員更快地創(chuàng)建和運(yùn)行Spark程序。
全書(shū)分為4篇，共9章，第一篇講解了Spark SQL 發(fā)展歷史和開(kāi)發(fā)環(huán)境搭建。第二篇講解了Spark SQL 實(shí)例，使得讀者掌握Spark SQL的入門(mén)操作，了解Spark RDD、DataFrame和DataSet，并熟悉 DataFrame 各種操作。第三篇講解了基于WiFi探針的商業(yè)大數(shù)據(jù)分析項(xiàng)目，實(shí)例中包含數(shù)據(jù)采集、預(yù)處理、存儲(chǔ)、利用Spark SQL 挖掘數(shù)據(jù)，一步一步帶領(lǐng)讀者學(xué)習(xí)Spark SQL強(qiáng)大的數(shù)據(jù)挖掘功能。第四篇講解了Spark SQL 優(yōu)化的知識(shí)。
本書(shū)適合Spark初學(xué)者、Spark數(shù)據(jù)分析人員以及Spark程序開(kāi)發(fā)人員，也適合高校和培訓(xùn)學(xué)校相關(guān)專(zhuān)業(yè)的師生教學(xué)參考。

我們處于一個(gè)數(shù)據(jù)爆炸的時(shí)代！

大量涌現(xiàn)的智能手機(jī)、平板、可穿戴設(shè)備及物聯(lián)網(wǎng)設(shè)備每時(shí)每刻都在產(chǎn)生新的數(shù)據(jù)，然而帶來(lái)革命性變革的并非海量數(shù)據(jù)本身，而是我們?nèi)绾螐倪@些數(shù)據(jù)中挖掘到有價(jià)值的信息，來(lái)輔助我們做出更加智能的決策。我們知道，在生產(chǎn)環(huán)境下，所謂的大數(shù)據(jù)往往是由數(shù)千萬(wàn)條、上億條具有多個(gè)預(yù)定義字段的數(shù)據(jù)單元組成的數(shù)據(jù)集，是不是很像傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的二維數(shù)據(jù)表呢？那么我們是否也能找到一個(gè)像SQL查詢(xún)那樣簡(jiǎn)便的工具來(lái)高效地分析處理大數(shù)據(jù)領(lǐng)域中的海量結(jié)構(gòu)化數(shù)據(jù)呢？沒(méi)錯(cuò)，這個(gè)工具就是Spark SQL。

Spark SQL是Spark 用來(lái)操作結(jié)構(gòu)化數(shù)據(jù)的高級(jí)模塊，在程序中通過(guò)引入Spark SQL模塊，我們便可以像從前在關(guān)系型數(shù)據(jù)庫(kù)利用SQL（結(jié)構(gòu)化查詢(xún)語(yǔ)言）分析關(guān)系型數(shù)據(jù)庫(kù)表一樣簡(jiǎn)單快捷地在Spark大數(shù)據(jù)分析平臺(tái)上對(duì)海量結(jié)構(gòu)化數(shù)據(jù)進(jìn)行快速分析，而 Spark 平臺(tái)屏蔽了底層分布式存儲(chǔ)、計(jì)算、通信的細(xì)節(jié)以及作業(yè)解析、調(diào)度的細(xì)節(jié)，使我們開(kāi)發(fā)者僅需關(guān)注如何利用SQL 進(jìn)行數(shù)據(jù)分析的程序邏輯就可以方便地操控集群來(lái)分析我們的數(shù)據(jù)。

本書(shū)內(nèi)容

本書(shū)共分為四篇：入門(mén)篇、基礎(chǔ)篇、實(shí)踐篇、調(diào)優(yōu)篇，所有代碼均采用簡(jiǎn)潔而優(yōu)雅的Scala語(yǔ)言編寫(xiě)，Spark框架也是使用Scala語(yǔ)言編寫(xiě)的。

第一部分入門(mén)篇（第1、2章）

第1章簡(jiǎn)要介紹Spark的誕生、Spark SQL的發(fā)展歷史以及Spark SQL的用處等內(nèi)容，使讀者快速了解Spark SQL背景知識(shí)，為以后的學(xué)習(xí)奠定基礎(chǔ)。

第2章通過(guò)講解Spark SQL開(kāi)發(fā)環(huán)境的搭建、Spark作業(yè)的打包提交、常見(jiàn)問(wèn)題的解答，并結(jié)合大量圖示，使讀者快速掌握開(kāi)發(fā)環(huán)境的搭建以及提交應(yīng)用程序到集群上，為后面章節(jié)的學(xué)習(xí)奠定堅(jiān)實(shí)的基礎(chǔ)。

第二部分基礎(chǔ)篇（第3、4、5、6章）

第3章是真正開(kāi)始學(xué)習(xí)Spark SQL必要的先修課，其中詳盡地介紹了Spark框架對(duì)數(shù)據(jù)的核心抽象——RDD（彈性分布式數(shù)據(jù)集）的方方面面。先介紹與RDD相關(guān)的基本概念，例如轉(zhuǎn)化操作、行動(dòng)操作、惰性求值、緩存，講解的過(guò)程伴隨著豐富的示例，旨在提高讀者對(duì)RDD的理解與加強(qiáng)讀者的RDD編程基礎(chǔ)。在講明白R(shí)DD中基礎(chǔ)內(nèi)容的同時(shí)，又深入地剖析了疑點(diǎn)、難點(diǎn)，例如RDD Lineage（RDD依賴(lài)關(guān)系圖）、向Spark傳遞函數(shù)、對(duì)閉包的理解等。在之前對(duì)基本類(lèi)型RDD的學(xué)習(xí)基礎(chǔ)上，又引入了對(duì)特殊類(lèi)RDD——鍵值對(duì)RDD的大致介紹，在鍵值對(duì)RDD介紹中對(duì)combineByKey操作的講解，深入地從代碼實(shí)現(xiàn)的角度洞悉了Spark分布式計(jì)算的實(shí)質(zhì)，旨在幫助對(duì)RDD有著濃厚興趣的讀者做進(jìn)一步的拓展。最后，站在RDD設(shè)計(jì)者的角度重新審視了RDD緩存、持久化、checkpoint機(jī)制，從而詮釋了RDD為什么能夠很好地適應(yīng)大數(shù)據(jù)分析業(yè)務(wù)的特點(diǎn)，有天然強(qiáng)大的容錯(cuò)性、易恢復(fù)性和高效性。

第4章對(duì)Spark高級(jí)模塊——Spark SQL，也就是本書(shū)的主題，進(jìn)行了簡(jiǎn)明扼要的概述，并講述了相應(yīng)的Spark SQL編程基礎(chǔ)。先是通過(guò)與前一章所學(xué)的Spark對(duì)數(shù)據(jù)的核心抽象——RDD的對(duì)比，引出了Spark SQL中核心的數(shù)據(jù)抽象——DataFrame，講解了兩者的異同，點(diǎn)明了Spark SQL是針對(duì)結(jié)構(gòu)化數(shù)據(jù)處理的高級(jí)模塊的原因在于其內(nèi)置豐富結(jié)構(gòu)信息的數(shù)據(jù)抽象。后一部分通過(guò)豐富的示例講解了如何利用Spark SQL模塊來(lái)編程的主要步驟，例如，從結(jié)構(gòu)化數(shù)據(jù)源中創(chuàng)建DataFrames、DataFrames基本操作以及執(zhí)行SQL查詢(xún)等。

第5、6章屬于 Spark SQL編程的進(jìn)階內(nèi)容，也是我們將Spark SQL應(yīng)用于生產(chǎn)、科研計(jì)算環(huán)境下，真正開(kāi)始分析多類(lèi)數(shù)據(jù)源、實(shí)現(xiàn)各種復(fù)雜業(yè)務(wù)需求必須要掌握的知識(shí)。在第5章里，我們以包含簡(jiǎn)單且典型的學(xué)生信息表的JSON文件作為數(shù)據(jù)源，深入對(duì)DataFrame豐富強(qiáng)大的API進(jìn)行研究，以操作講解加示例的形式包攬了DataFrame中每一個(gè)常用的行動(dòng)、轉(zhuǎn)化操作，進(jìn)而幫助讀者輕松高效地組合使用DataFrame所提供的API來(lái)實(shí)現(xiàn)業(yè)務(wù)需求。在第6章里，介紹了Spark SQL 可處理的各種數(shù)據(jù)源，包括Hive表、JSON和Parquet文件等，從廣度上使讀者了解Spark SQL在大數(shù)據(jù)領(lǐng)域?qū)Φ湫徒Y(jié)構(gòu)化數(shù)據(jù)源的皆可處理性，從而使讀者真正在工作中掌握一門(mén)結(jié)構(gòu)化數(shù)據(jù)的分析利器。

第三部分實(shí)踐篇（第7、8章）

第7章通過(guò)講解大型商業(yè)實(shí)例項(xiàng)目（基于WiFi探針的商業(yè)大數(shù)據(jù)分析技術(shù)）的功能需求、系統(tǒng)架構(gòu)、功能設(shè)計(jì)、數(shù)據(jù)庫(kù)結(jié)構(gòu)來(lái)幫助讀者理解如何在實(shí)際開(kāi)發(fā)中應(yīng)用Spark SQL來(lái)處理結(jié)構(gòu)化數(shù)據(jù)，加強(qiáng)讀者的工程思維，同時(shí)為第8章的學(xué)習(xí)做好鋪墊。

第8章通過(guò)講解分布式環(huán)境搭建以及項(xiàng)目代碼的解析來(lái)幫助讀者進(jìn)一步理解Spark SQL應(yīng)用程序的執(zhí)行過(guò)程，在后一部分介紹了Spark SQL程序的遠(yuǎn)程調(diào)試方法和Spark 的Web 界面，幫助讀者更加方便地了解程序的運(yùn)行狀態(tài)。

第四部分調(diào)優(yōu)篇（第9章）

調(diào)優(yōu)篇由第9章組成，本篇從Spark的執(zhí)行流程到內(nèi)存以及任務(wù)的劃分，再到Spark應(yīng)用程序的編寫(xiě)技巧，接著到Spark本身的調(diào)優(yōu)，最后引出數(shù)據(jù)傾斜的解決思路，層層遞進(jìn)，逐步解析Spark的調(diào)優(yōu)思想。最后以對(duì)Spark 執(zhí)行引擎 Tungsten與Spark SQL的解析引擎Catalyst的介紹作為本部分的結(jié)尾。筆者將在本篇中帶領(lǐng)讀者掌握Spark的調(diào)優(yōu)方式以及思想，讓Spark程序再快一點(diǎn)。

本書(shū)適合讀者

本書(shū)適合于學(xué)習(xí)數(shù)據(jù)挖掘、有海量結(jié)構(gòu)化數(shù)據(jù)分析需求的大數(shù)據(jù)從業(yè)者及愛(ài)好者閱讀，也可以作為高等院校相關(guān)專(zhuān)業(yè)的教材。建議在學(xué)習(xí)本書(shū)內(nèi)容的過(guò)程中，理論聯(lián)系實(shí)際，獨(dú)立進(jìn)行一些代碼的編寫(xiě)，采取開(kāi)放式的實(shí)驗(yàn)方法，即讀者自行準(zhǔn)備實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)環(huán)境，解決實(shí)際問(wèn)題，最終達(dá)到理論聯(lián)系實(shí)際的目的。

本書(shū)在寫(xiě)作過(guò)程中得到了家人以及本書(shū)編輯的大力支持，在此對(duì)他們一并表示感謝。

本書(shū)由紀(jì)涵（主要負(fù)責(zé)基礎(chǔ)篇的編寫(xiě)）主筆，其他參與著作的還有靖曉文（主要負(fù)責(zé)實(shí)踐篇的編寫(xiě)）、趙政達(dá)（主要負(fù)責(zé)入門(mén)篇、調(diào)優(yōu)篇的編寫(xiě)），排名不分先后。

紀(jì) 涵

2018年2月

目錄

第一部分入門(mén)篇

第1章初識(shí)Spark SQL 3

1.1 Spark SQL的前世今生 3

1.2 Spark SQL能做什么 4

第2章 Spark安裝、編程環(huán)境搭建以及打包提交 6

2.1 Spark的簡(jiǎn)易安裝 6

2.2 準(zhǔn)備編寫(xiě)Spark應(yīng)用程序的IDEA環(huán)境 10

2.3 將編寫(xiě)好的Spark應(yīng)用程序打包成jar提交到Spark上 18

第二部分基礎(chǔ)篇

第3章 Spark上的RDD編程 23

3.1 RDD基礎(chǔ) 24

3.1.1 創(chuàng)建RDD 24

3.1.2 RDD轉(zhuǎn)化操作、行動(dòng)操作 24

3.1.3 惰性求值 25

3.1.4 RDD緩存概述 26

3.1.5 RDD基本編程步驟 26

3.2 RDD簡(jiǎn)單實(shí)例—wordcount 27

3.3 創(chuàng)建RDD 28

3.3.1 程序內(nèi)部數(shù)據(jù)作為數(shù)據(jù)源 28

3.3.2 外部數(shù)據(jù)源 29

3.4 RDD操作 33

3.4.1 轉(zhuǎn)化操作 34

3.4.2 行動(dòng)操作 37

3.4.3 惰性求值 38

3.5 向Spark傳遞函數(shù) 39

3.5.1 傳入匿名函數(shù) 39

3.5.2 傳入靜態(tài)方法和傳入方法的引用 40

3.5.3 閉包的理解 41

3.5.4 關(guān)于向Spark傳遞函數(shù)與閉包的總結(jié) 42

3.6 常見(jiàn)的轉(zhuǎn)化操作和行動(dòng)操作42

3.6.1 基本RDD轉(zhuǎn)化操作 43

3.6.2 基本RDD行動(dòng)操作 48

3.6.3 鍵值對(duì)RDD 52

3.6.4 不同類(lèi)型RDD之間的轉(zhuǎn)換 56

3.7 深入理解RDD 57

3.8 RDD 緩存、持久化 59

3.8.1 RDD緩存 59

3.8.2 RDD持久化 61

3.8.3 持久化存儲(chǔ)等級(jí)選取策略 63

3.9 RDD checkpoint容錯(cuò)機(jī)制 64

第4章 Spark SQL編程入門(mén) 66

4.1 Spark SQL概述 66

4.1.1 Spark SQL是什么 66

4.1.2 Spark SQL通過(guò)什么來(lái)實(shí)現(xiàn) 66

4.1.3 Spark SQL 處理數(shù)據(jù)的優(yōu)勢(shì) 67

4.1.4 Spark SQL數(shù)據(jù)核心抽象——DataFrame 67

4.2 SparkSQL編程入門(mén)示例 69

4.2.1 程序主入口：SparkSession 69

4.2.2 創(chuàng)建 DataFrame 70

4.2.3 DataFrame基本操作 70

4.2.4 執(zhí)行SQL查詢(xún) 72

4.2.5 全局臨時(shí)表 73

4.2.6 Dataset 73

4.2.7 將RDDs轉(zhuǎn)化為DataFrame 75

4.2.8 用戶(hù)自定義函數(shù) 78

第5章 Spark SQL的DataFrame操作大全 82

5.1 由JSON文件生成所需的DataFrame對(duì)象 82

5.2 DataFrame上的行動(dòng)操作 84

5.3 DataFrame上的轉(zhuǎn)化操作 91

5.3.1 where條件相關(guān) 92

5.3.2 查詢(xún)指定列 94

5.3.3 思維開(kāi)拓：Column的巧妙應(yīng)用 99

5.3.4 limit操作 102

5.3.5 排序操作：order by和sort 103

5.3.6 group by操作 106

5.3.7 distinct、dropDuplicates去重操作 107

5.3.8 聚合操作 109

5.3.9 union合并操作 110

5.3.10 join操作 111

5.3.11 獲取指定字段統(tǒng)計(jì)信息 114

5.3.12 獲取兩個(gè)DataFrame中共有的記錄 116

5.3.13 獲取一個(gè)DataFrame中有另一個(gè)DataFrame中沒(méi)有的記錄 116

5.3.14 操作字段名 117

5.3.15 處理空值列 118

第6章 Spark SQL支持的多種數(shù)據(jù)源 121

6.1 概述 121

6.1.1 通用load/save 函數(shù) 121

6.1.2 手動(dòng)指定選項(xiàng) 123

6.1.3 在文件上直接進(jìn)行SQL查詢(xún) 123

6.1.4 存儲(chǔ)模式 123

6.1.5 持久化到表 124

6.1.6 bucket、排序、分區(qū)操作 124

6.2 典型結(jié)構(gòu)化數(shù)據(jù)源 125

6.2.1 Parquet 文件 125

6.2.2 JSON 數(shù)據(jù)集 129

6.2.3 Hive表 130

6.2.4 其他數(shù)據(jù)庫(kù)中的數(shù)據(jù)表 133

第三部分實(shí)踐篇

第7章 Spark SQL 工程實(shí)戰(zhàn)之基于WiFi探針的商業(yè)大數(shù)據(jù)分析技術(shù)139

7.1 功能需求 139

7.1.1 數(shù)據(jù)收集 139

7.1.2 數(shù)據(jù)清洗 140

7.1.3 客流數(shù)據(jù)分析 141

7.1.4 數(shù)據(jù)導(dǎo)出 142

7.2 系統(tǒng)架構(gòu) 142

7.3 功能設(shè)計(jì) 143

7.4 數(shù)據(jù)庫(kù)結(jié)構(gòu) 144

7.5 本章小結(jié) 144

第8章第一個(gè)Spark SQL應(yīng)用程序 145

8.1 完全分布式環(huán)境搭建 145

8.1.1 Java 環(huán)境配置 145

8.1.2 Hadoop 安裝配置 146

8.1.3 Spark安裝配置 149

8.2 數(shù)據(jù)清洗 150

8.3 數(shù)據(jù)處理流程 153

8.4 Spark程序遠(yuǎn)程調(diào)試 164

8.4.1 導(dǎo)出jar包 164

8.4.2 IDEA配置 168

8.4.3 服務(wù)端配置 170

8.5 Spark的Web界面 171

8.6 本章小結(jié) 172

第四部分優(yōu)化篇

第9章讓Spark程序再快一點(diǎn) 175

9.1 Spark執(zhí)行流程 175

9.2 Spark內(nèi)存簡(jiǎn)介 176

9.3 Spark的一些概念 177

9.4 Spark編程四大守則 178

9.5 Spark調(diào)優(yōu)七式 183

9.6 解決數(shù)據(jù)傾斜問(wèn)題 192

9.7 Spark 執(zhí)行引擎 Tungsten 簡(jiǎn)介 195

9.8 Spark SQL解析引擎Catalyst 簡(jiǎn)介 197

9.9 本章小結(jié) 200

你還可能感興趣

我要評(píng)論

感谢您访问我们的网站，您可能还对以下资源感兴趣：

免费的a级毛片

性欧美牲交xxxxx视频极品美女扒开粉嫩小泬高潮 av视频一区在线播放亚洲最大无码一区二区三区

<center id="cyq0k"><pre id="cyq0k"></pre></center>

<dl id="cyq0k"><object id="cyq0k"></object></dl>