《Linux系統(tǒng)與大數據應用》主要內容包括Linux基本命令,大數據主要框架Hadoop的搭建和應用,Spark框架的應用,大數據科學計算、Python語言、網絡爬蟲分析等主要大數據分析應用的工具等。本書分別從系統(tǒng)使用者、網絡管理者、shell程序開發(fā)者、應用程序開發(fā)者和內核開發(fā)者的角度,全方位地介紹Linux操作環(huán)境、操作命令,以及基本的開發(fā)方法;同時,本書面向大數據應用的開發(fā)者,介紹基于Linux系統(tǒng)的大數據計算平臺、存儲平臺,以及幾個廣泛使用的應用開發(fā)和分析工具;之后是綜合案例和應用,使讀者初步認識Linux,熟練使用shell 命令,掌握系統(tǒng)管理原理,熟悉基于Linux的大數據開發(fā)平臺,并學會幾種典型的大數據存儲和開發(fā)方法。
《Linux系統(tǒng)與大數據應用》既可作為高等學校計算機軟件技術課程的教材,也可作為管理信息系統(tǒng)開發(fā)人員的技術參考書。
配套資源:電子課件、課后習題答案、源代碼
本書特色:
1.各個章節(jié)穿插了很多案例,提供了大數據應用開發(fā)從入門到實際應用所必備的知識。
2.每章都配備有課后習題,并且每章都有綜合案例和實驗的題目。
3.本書中所介紹的實例都已在Windows 10操作系統(tǒng)下調試運行通過。
隨著云時代的來臨,大數據(Big Data)也受到了越來越多的關注。《著云臺》的分析師團隊認為,大數據通常用來形容一個公司創(chuàng)造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯(lián)系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的計算機分配工作。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。大數據在物理學、生物學、環(huán)境生態(tài)學等領域以及軍事、金融、通信等行業(yè)存在已有時日,卻因為近年來互聯(lián)網和信息行業(yè)的發(fā)展而引起人們的關注。
大數據作為時下最火熱的IT行業(yè)的詞匯,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。隨著大數據時代的來臨,大數據分析也應運而生,大數據分析是指對規(guī)模巨大的數據進行分析。大數據可以概括為5個V,即數據量(Volume)大、速度(Velocity)快、類型(Variety)多、價值(Value)、真實性(Veracity)。
本書圍繞大數據應用開發(fā)基礎,在內容的編排上力爭體現新的教學思想和方法。本書內容編寫遵循從簡單到復雜從抽象到具體的原則。書中通過各個章節(jié)穿插了很多案例,提供了大數據應用開發(fā)從入門到實際應用所必備的知識。Linux編程基礎、Linux 系統(tǒng)用戶與組管理、Linux系統(tǒng)編輯器和軟件安裝、Linux系統(tǒng)網絡及其服務配置、大數據挖掘的shell基礎、Linux系統(tǒng)下的Python基礎、大數據開發(fā)平臺、大數據應用開發(fā)工具和大數據應用與案例,學生除了要在課堂上學習程序設計的理論方法,掌握編程語言的語法知識和編程技巧外,還要進行大量的課外練習和實踐操作。為此本書每章都配備有課后習題,并且每章都有一個綜合案例,除此之外,每章節(jié)還安排了實驗的題目,可供教師實驗教學使用。
本書共分10章。第1章是Linux系統(tǒng)概述,第2章介紹Hadoop平臺常用的Linux命令,第3章介紹Linux 系統(tǒng)用戶與組管理,第4章介紹Linux系統(tǒng)編輯器和軟件安裝,第5章介紹Linux系統(tǒng)網絡及其服務配置,第6章介紹大數據挖掘的shell基礎,第7章介紹Linux系統(tǒng)下的Python基礎,第8章介紹大數據開發(fā)平臺,第9章介紹大數據應用開發(fā)工具,第10章介紹大數據應用與案例。
本書內容全面,案例新穎,針對性強。本書中所介紹的實例都已在Windows 10操作系統(tǒng)下調試運行通過。從應用程序的設計到應用程序的發(fā)布,讀者都可以按照書中所講述內容實施。作為教材,每章均附有習題。
本書由夏輝負責書的整體策劃,并負責編寫第8和10章,楊偉吉老師負責編寫第4和6章,金鑫老師負責編寫第2、5和7章,李淑霞老師負責編寫第1、3和9章,李強負責所有實驗的編寫和審核,劉澍老師負責編寫課后習題、制作電子課件,并最終完成全文書稿的修訂、完善、統(tǒng)稿和定稿工作,參與本書編寫的還有王學穎、吳鵬。本書由王學穎教授承擔內容的主審工作,吳鵬博士為本書編寫提供了技術支持和幫助,并且對本書初稿在教學過程中存在的問題提出了寶貴的意見。本書也借鑒了中外參考文獻中的原理知識和資料,在此一舉感謝。
本書配有電子課件、課后習題答案、每章節(jié)案例代碼、實驗代碼,以方便教學和自學參考使用,如有需要請到http://www.cmpedu.com下載。
由于時間倉促,書中難免存在不妥之處,敬請讀者原諒,并提出寶貴意見。
前言
第1章 Linux系統(tǒng)概述
1.1 認識Linux系統(tǒng)
1.1.1 Linux系統(tǒng)版本
1.1.2 文件與目錄
1.2 Linux系統(tǒng)的發(fā)展
1.2.1 早期的Linux系統(tǒng)
1.2.2 Linux系統(tǒng)發(fā)展
1.2.3 Linux系統(tǒng)舉例
1.2.4 Linux基本思想和特征
1.3 Ubuntu介紹
1.3.1 Ubuntu概述
1.3.2 Ubuntu的版本與應用
1.3.3 Ubuntu下載安裝
1.3.4 Ubuntu評價
1.4 Linux系統(tǒng)下大數據平臺
1.4.1 Linux系統(tǒng)下大數據平臺介紹
1.4.2 Linux系統(tǒng)下大數據平臺架構
1.4.3 大數據平臺發(fā)展前景
1.5 本章小結
實踐與練習
第2章 Hadoop平臺常用的Linux命令
2.1 文件和目錄
2.1.1 Ubuntu系統(tǒng)目錄結構
2.1.2 創(chuàng)建/刪除目錄
2.1.3 查看文件
2.1.4 查看路徑
2.1.5 tree命令
2.2 文件操作
2.2.1 創(chuàng)建文件
2.2.2 查看文件內容
2.2.3 清屏
2.3 幫助和歷史
2.3.1 help命令
2.3.2 man命令
2.3.3 自動補全Tab
2.3.4 查看歷史history
2.4 文件的其他操作
2.4.1 復制/剪切命令
2.4.2 重命名
2.4.3 重定向
2.4.4 管道命令
2.4.5 鏈接快捷方式
2.4.6 文件搜索
2.4.7 壓縮文件和解壓縮
2.5 系統(tǒng)常用操作
2.5.1 日歷cal
2.5.2 時間date
2.5.3 進程操作
2.5.4 系統(tǒng)狀態(tài)查看和操作
2.6 本章小結
實踐與練習
第3章 Linux系統(tǒng)用戶與組管理
3.1 用戶與組賬號
3.1.1 添加賬號
3.1.2 切換賬號
3.1.3 遠程登錄
3.2 超級用戶root
3.2.1 切換超級用戶
3.2.2 加入用戶組
3.2.3 退出
3.3 用戶操作權限
3.3.1 文件權限管理概述
3.3.2 修改權限
3.4 系統(tǒng)的安全性
3.4.1 賬號的安全性
3.4.2 常見漏洞的安全性
3.4.3 SELinux
3.5 應用案例:Hadoop集群創(chuàng)建的用戶
3.6 本章小結
實踐與練習
第4章 Linux系統(tǒng)編輯器和軟件安裝
4.1 Linux主要編輯器介紹
4.1.1 gedit編輯器
4.1.2 vim編輯器
4.2 HTTP Server的介紹和安裝
4.2.1 Apache HTTP Server
4.2.2 安裝與配置實例
4.3 Linux大數據包導入庫
4.3.1 pip安裝
4.3.2 自帶工具
4.3.3 導入大數據計算庫
4.4 應用案例:Hadoop集群修改配置文件
4.5 本章小結
實踐與練習
第5章 Linux系統(tǒng)網絡及其服務配置
5.1 網絡配置
5.1.1 IP地址查看和配置
5.1.2 SSH和Telnet
5.1.3 SSH工具
5.2 Xshell工具
5.2.1 服務器配置與連接
5.2.2 客戶端與服務器通信
5.3 FTP服務器
5.3.1 FTP服務器簡介
5.3.2 FTP服務器安裝配置
5.4 Samba服務器
5.4.1 Samba簡介
5.4.2 安裝與配置實例
5.5 Apache Web服務器
5.5.1 Apache Web服務器簡介
5.5.2 Apache Web服務器安裝與配置
5.5.3 虛擬主機配置
5.6 應用案例:Hadoop平臺的網絡和服務器配置
5.7 本章小結
實踐與練習
第6章 大數據挖掘的shell基礎
6.1 大數據開發(fā)的shell基礎
6.2 shell的模式和類型
6.2.1 shell的運行模式
6.2.2 shell的類型
6.3 shell編程
6.3.1 bash簡介
6.3.2 shell命令行
6.3.3 shell腳本語句和命令
6.4 應用案例:shell編程的數據挖掘
6.5 本章小結
實踐與練習
第7章 Linux系統(tǒng)下的Python基礎
7.1 Linux中的Python
7.2 Python基礎
7.2.1 基本數據類型
7.2.2 流程控制語句
7.3 Python函數
7.4 Python類和對象
7.4.1 面向對象
7.4.2 類和對象
7.4.3 構造函數
7.4.4 繼承
7.5 文件的操作
7.6 Python的類庫
7.7 應用案例:數據挖掘相關Python類庫應用
7.8 其他相關知識
7.9 本章小結
實踐與練習
第8章 大數據開發(fā)平臺
8.1 大數據開發(fā)平臺簡介
8.1.1 大數據的應用與前景
8.1.2 Hadoop簡介
8.2 Hadoop框架介紹
8.2.1 Hadoop框架及組件介紹
8.2.2 Hadoop的核心組件
8.2.3 Hadoop的安全性
8.3 Hadoop安裝與配置
8.3.1 下載安裝Hadoop
8.3.2 Hadoop配置
8.3.3 詞頻統(tǒng)計示例
8.4 Spark簡介
8.4.1 Spark特點
8.4.2 Spark生態(tài)系統(tǒng)
8.5 Spark安裝與配置
8.5.1 下載與安裝Spark
8.5.2 Spark集群配置
8.6 本章小結
實踐與練習
第9章 大數據應用開發(fā)工具
9.1 數據抽取ETL
9.1.1 ETL概述
9.1.2 ETL工具
9.1.3 網絡爬蟲技術及應用
9.2 Hbase原理和模型
9.2.1 Hbase安裝和部署
9.2.2 Hbase應用
9.2.3 Hbase優(yōu)化和存儲
9.3 Hive基礎與應用
9.3.1 Hive安裝
9.3.2 Hive數據模型和查詢語言
9.3.3 Hive數據分析
9.4 本章小結
實踐與練習
第10章 大數據應用與案例
10.1 數據挖掘工具和主要算法
10.1.1 Mahout安裝和配置
10.1.2 K-Means算法和Canopy算法
10.1.3 貝葉斯算法
10.2 Hadoop應用案例:World count詞頻統(tǒng)計案例
10.2.1 實訓目的和要求
10.2.2 運用
10.3 Spark應用案例:Spark進行電商數據檢索
10.3.1 實訓目的和要求
10.3.2 運用
10.4 本章小結
實踐與練習
參考文獻