大數(shù)據(jù)處理之道下載 最新更新|軟件分類|軟件專題|手機版|論壇轉(zhuǎn)貼|軟件發(fā)布

您當(dāng)前所在位置: 首頁教程下載數(shù)據(jù)庫類 → 大數(shù)據(jù)處理之道pdf 高清完整版

大數(shù)據(jù)處理之道pdf

高清完整版

大數(shù)據(jù)處理之道pdf下載
  • 軟件大小:104.90 MB
  • 軟件語言:中文
  • 軟件類型:國產(chǎn)軟件 / 數(shù)據(jù)庫類
  • 軟件授權(quán): 免費軟件
  • 更新時間:2019-06-18 09:57:20
  • 軟件等級:4星
  • 軟件廠商: -
  • 應(yīng)用平臺:WinXP, Win7, Win8, Win10
  • 軟件官網(wǎng):

ITMOP本地下載文件大?。?04.90 MB

點贊 好評 0%(0) 差評 差評 0%(0)

軟件介紹人氣軟件精品推薦相關(guān)文章網(wǎng)友評論下載地址

小編為您推薦: 大數(shù)據(jù)處理之道 大數(shù)據(jù)叢書 大數(shù)據(jù)

大數(shù)據(jù)處理之道pdf高清完整版是非常專業(yè)的一本大數(shù)據(jù)處理技術(shù)叢書,在這里不僅有詳細的大數(shù)據(jù)時代分析,還有大數(shù)據(jù)處理應(yīng)用的技術(shù)分析,以及實例分析,這本書每一章節(jié)都有小結(jié),歡迎有需要的用戶來IT貓撲下載!

關(guān)于本書

本書覆蓋了當(dāng)前大數(shù)據(jù)處理領(lǐng)域的熱門技術(shù),包括Hadoop、Spark、Storm、Dremel、Drill等,詳細分析了各種技術(shù)的應(yīng)用場景和優(yōu)缺點;同時闡述了大數(shù)據(jù)下的日志分析系統(tǒng),重點講解了ELK日志處理方案;最后分析了大數(shù)據(jù)處理技術(shù)的發(fā)展趨勢。本書采用幽默的表述風(fēng)格,使讀者容易理解、輕松掌握;重點從各種技術(shù)的起源、設(shè)計思想、架構(gòu)等方面闡述,以幫助讀者從根源上悟出大數(shù)據(jù)處理之道。

大數(shù)據(jù)處理之道下載

作者簡介

何金池 IBM高級軟件工程師,主要從事高性能計算和大數(shù)據(jù)領(lǐng)域研發(fā)工作,熟悉目前大數(shù)據(jù)處理領(lǐng)域的各項熱門技術(shù),擅長于大數(shù)據(jù)環(huán)境下的日志分析和處理,具有多年的一線軟件研發(fā)測試經(jīng)驗。

前言

近年來,“大數(shù)據(jù)”已然成為IT界如火如荼的詞,與“云計算” 并駕齊驅(qū),成為帶動IT行業(yè)發(fā)展的兩架高速列車。尤其在物聯(lián)網(wǎng)快速發(fā)展的時代,數(shù)據(jù)已經(jīng)被稱之為新的資源,或者“金子”,支撐物聯(lián)網(wǎng)發(fā)展的基石。

那么如何把“死”的數(shù)據(jù),變成真正有效的“資源”,最后再變成活生生的“金子”,便成為近年來IT界人士思考的問題。所以,一時之間,各種大數(shù)據(jù)處理技術(shù)如井噴一般涌現(xiàn)出來。Hadoop, Spark, Storm, Dremel/Drill等大數(shù)據(jù)解決方案爭先恐后的展現(xiàn)出來,需要說明的是,這里所有的方案不是一種技術(shù),而是數(shù)種,甚至數(shù)十種技術(shù)的組合,就拿Hadoop來說,Hadoop只是帶頭大哥,后面的關(guān)鍵的小弟還有:MapReduce, HDFS, Hive, Hbase, Pig, ZooKeeper等等,大有“大仙過海,各顯神通”的氣勢和場面。

第一部分,本書橫向總結(jié)性闡述了各種大數(shù)據(jù)處理技術(shù),重點從緣起緣落、設(shè)計思想、構(gòu)架原理等角度剖析了各種技術(shù),分析了各個技術(shù)的優(yōu)缺點和適用場景。本書并不涉及軟件的安裝等,因為如何安裝和使用,在網(wǎng)絡(luò)上一搜一大堆,著實沒有必要浪費讀者的時間和金錢。在這部分中,第一篇講述了Hadoop技術(shù)陣營,第二篇,講述了Spark新起之秀,第三篇講述了其他大數(shù)據(jù)處理技術(shù),如Storm, Dremel/Drill等。在第二部分中,本書闡述了大數(shù)據(jù)場景下的日志分析技術(shù)。在大數(shù)據(jù)時代,日志分析方案也呈現(xiàn)出了遍地開花的景象。如果將大數(shù)據(jù)處理系統(tǒng)比作一個可能得病的人,日志分析就是負(fù)責(zé)看病的醫(yī)生,要想讓大數(shù)據(jù)處理健康平穩(wěn),日志分析和監(jiān)控非常重要。本書重點闡述了日志處理技術(shù)中的最如日中天的方案:ELK。最后部分展望了大數(shù)據(jù)處理技術(shù)的發(fā)展趨勢,怎奈大數(shù)據(jù)處理技術(shù)發(fā)展太快,數(shù)據(jù)量也將會越來越大,技術(shù)的革新也將在所難免。

作為大數(shù)據(jù)研發(fā)人員,時刻保持學(xué)習(xí)新技術(shù),方能立于技術(shù)

大數(shù)據(jù)處理之道目錄

0“瘋狂”的大數(shù)據(jù) 1

0.1大數(shù)據(jù)時代 1

0.2數(shù)據(jù)就是“金庫” 3

0.3讓大數(shù)據(jù)“活”起來 4

第1篇Hadoop軍營

1 Hadoop一石激起千層浪 7

1.1Hadoop誕生——不僅僅是玩具 7

1.2Hadoop發(fā)展——各路英雄集結(jié) 8

1.3Hadoop和它的小伙伴們 10

1.4Hadoop應(yīng)用場景 12

1.5小結(jié) 13

2 MapReduce奠定基石 14

2.1MapReduce設(shè)計思想 14

2.2MapReduce運行機制 19

2.2.1MapReduce的組成 19

2.2.2MapReduce作業(yè)運行流程 20

2.2.3JobTracker解剖 26

2.2.4TaskTracker解剖 34

2.2.5失敗場景分析 42

2.3MapReduce實例分析 43

2.3.1運行WordCount程序 44

2.3.2WordCount源碼分析 45

2.4小結(jié) 48

3 分布式文件系統(tǒng) 49

3.1群雄并起的DFS 49

3.2HDFS文件系統(tǒng) 51

3.2.1HDFS 設(shè)計與架構(gòu) 52

3.2.2HDFS 操作與API 56

3.2.3HDFS的優(yōu)點及適用場景 60

3.2.4HDFS的缺點及改進策略 61

3.3小結(jié) 62

4 Hadoop體系的“四劍客” 63

4.1數(shù)據(jù)倉庫工具Hive 63

4.1.1Hive緣起何處 63

4.1.2Hive和數(shù)據(jù)庫的區(qū)別 65

4.1.3Hive設(shè)計思想與架構(gòu) 66

4.1.4適用場景 74

4.2大數(shù)據(jù)倉庫HBase 74

4.2.1HBase因何而生 74

4.2.2HBase的設(shè)計思想和架構(gòu) 77

4.2.3HBase優(yōu)化技巧 84

4.2.4HBase和Hive的區(qū)別 86

4.3Pig編程語言 87

4.3.1Pig的緣由 87

4.3.2Pig的基本架構(gòu) 88

4.3.3Pig與Hive的對比 90

4.3.4Pig的執(zhí)行模式 90

4.3.5Pig Latin語言及其應(yīng)用 91

4.4協(xié)管員ZooKeeper 96

4.4.1ZooKeeper是什么 96

4.4.2ZooKeeper的作用 97

4.4.3ZooKeeper的架構(gòu) 98

4.4.4ZooKeeper的數(shù)據(jù)模型 100

4.4.5ZooKeeper的常用接口及操作 102

4.4.6ZooKeeper的應(yīng)用場景分析 105

4.5小結(jié) 108

5 Hadoop資源管理與調(diào)度 110

5.1Hadoop調(diào)度機制 110

5.1.1FIFO 111

5.1.2計算能力調(diào)度器 111

5.1.3公平調(diào)度器 113

5.2Hadoop YARN資源調(diào)度 114

5.2.1YARN產(chǎn)生的背景 114

5.2.2Hadoop YARN的架構(gòu) 116

5.2.3YARN的運作流程 118

5.3Apache Mesos資源調(diào)度 120

5.3.1Apache Mesos的起因 120

5.3.2Apache Mesos的架構(gòu) 121

5.3.3基于Mesos的Hadoop 123

5.4Mesos與YARN對比 127

5.5小結(jié) 128

6 Hadoop集群管理之道 129

6.1Hadoop 集群管理與維護 129

6.1.1Hadoop集群管理 129

6.1.2Hadoop集群維護 131

6.2Hadoop 集群調(diào)優(yōu) 132

6.2.1Linux文件系統(tǒng)調(diào)優(yōu) 132

6.2.2Hadoop通用參數(shù)調(diào)整 133

6.2.3HDFS相關(guān)配置 133

6.2.4MapReduce相關(guān)配置 134

6.2.5Map任務(wù)相關(guān)配置 136

6.2.6HBase搭建重要的HDFS參數(shù) 137

6.3Hadoop 集群監(jiān)控 137

6.3.1Apache Ambari監(jiān)控 137

6.3.2Ganglia監(jiān)控Hadoop 138

6.4小結(jié) 138

第2篇Spark星火燎原

7 Spark寶刀出鞘 141

7.1Spark的歷史淵源 141

7.1.1Spark的誕生 141

7.1.2Spark的發(fā)展 142

7.2Spark和Hadoop MapReduce對比 143

7.3Spark的適用場景 145

7.4Spark的硬件配置 146

7.5Spark架構(gòu) 147

7.5.1Spark生態(tài)架構(gòu) 147

7.5.2Spark運行架構(gòu) 149

7.6小結(jié) 151

8 Spark核心RDD 153

8.1RDD簡介 153

8.1.1什么是RDD 153

8.1.2為什么需要RDD 154

8.1.3RDD本體的設(shè)計 154

8.1.4RDD與分布式共享內(nèi)存 155

8.2RDD的存儲級別 155

8.3RDD依賴與容錯 157

8.3.1RDD依賴關(guān)系 157

8.3.2RDD容錯機制 160

8.4RDD操作與接口 161

8.4.1RDD Transformation操作與接口 162

8.4.2RDD Action操作與接口 164

8.5RDD編程示例 165

8.6小結(jié) 166

9 Spark運行模式和流程 167

9.1Spark運行模式 167

9.1.1Spark的運行模式列表 167

9.1.2Local模式 168

9.1.3Standalone模式 169

9.1.4Spark on Mesos模式 171

9.1.5Spark on YARN 模式 173

9.1.6Spark on EGO 模式 175

9.2Spark作業(yè)流程 177

9.2.1YARN-Client模式的作業(yè)流程 178

9.2.2YARN-Cluster模式的作業(yè)流程 179

9.3小結(jié) 181

10 Shark和Spark SQL 183

10.1從Shark到Spark SQL 183

10.1.1Shark的撤退是進攻 183

10.1.2Spark SQL接力 185

10.1.3Spark SQL與普通SQL的區(qū)別 186

10.2Spark SQL應(yīng)用架構(gòu) 187

10.3Spark SQL之DataFrame 188

10.3.1什么是DataFrame 188

10.3.2DataFrame的創(chuàng)建 188

10.3.3DataFrame的使用 190

10.4Spark SQL運行過程分析 190

10.5小結(jié) 192

11 Spark Streaming流數(shù)據(jù)處理新貴 193

11.1Spark Streaming是什么 193

11.2Spark Streaming的架構(gòu) 194

11.3Spark Streaming的操作 195

11.3.1Spark Streaming的Transformation操作 196

11.3.2Spark Streaming的Window操作 197

11.3.3Spark Streaming的Output操作 198

11.4Spark Streaming性能調(diào)優(yōu) 198

11.5小結(jié) 200

12 Spark GraphX圖計算系統(tǒng) 201

12.1圖計算系統(tǒng) 201

12.1.1圖存儲模式 202

12.1.2圖計算模式 203

12.2Spark GraphX的框架 206

12.3Spark GraphX的存儲模式 207

12.4Spark GraphX的圖運算符 208

12.5小結(jié) 211

13 Spark Cluster管理 212

13.1Spark Cluster部署 212

13.2Spark Cluster管理與監(jiān)控 213

13.2.1內(nèi)存優(yōu)化機制 213

13.2.2Spark日志系統(tǒng) 213

13.3Spark 高可用性 215

13.4小結(jié) 216

第3篇其他大數(shù)據(jù)處理技術(shù)

14 專為流數(shù)據(jù)而生的Storm 218

14.1Storm起因 218

14.2Storm的架構(gòu)與組件 220

14.3Storm的設(shè)計思想 222

14.4Storm與Spark的區(qū)別 224

14.5Storm的適用場景 225

14.6Storm的應(yīng)用 226

14.7小結(jié) 227

15 Dremel和Drill 228

15.1Dremel和Drill的歷史背景 228

15.2Dremel的原理與應(yīng)用 230

15.3Drill的架構(gòu)與流程 232

15.4Dremel和Drill的適用場景與應(yīng)用 234

15.5小結(jié) 234

第4篇大數(shù)據(jù)下的日志分析系統(tǒng)

16 日志分析解決方案 236

16.1百花齊放的日志處理技術(shù) 236

16.2日志處理方案ELK 238

16.2.1ELK的三大金剛 238

16.2.2ELK的架構(gòu) 240

16.2.3ELK的組網(wǎng)形式 242

16.3Logstash日志收集解析 245

16.3.1Input Plugins及應(yīng)用示例 246

16.3.2Filter Plugins及應(yīng)用示例 248

16.3.3Output Plugins及應(yīng)用示例 249

16.4ElasticSearch存儲與搜索 250

16.4.1ElasticSearch的主要概念 251

16.4.2ElasticSearch Rest API 252

16.5Kibana展示 253

16.6小結(jié) 255

17 ELK集群部署與應(yīng)用 256

17.1ELK集群部署與優(yōu)化 256

17.1.1ELK HA集群部署 256

17.1.2ElasticSearch優(yōu)化 257

17.2如何開發(fā)自己的插件 259

17.3ELK在大數(shù)據(jù)運維系統(tǒng)中的應(yīng)用 261

17.4ELK實戰(zhàn)應(yīng)用 262

17.4.1ELK監(jiān)控Spark集群 262

17.4.2ELK監(jiān)控系統(tǒng)資源狀態(tài) 263

17.4.3ELK輔助日志管理和故障排查 263

17.5小結(jié) 264

第5篇數(shù)據(jù)分析技術(shù)前景展望

18 大數(shù)據(jù)處理的思考與展望 266

18.1大數(shù)據(jù)時代的思考 266

18.2大數(shù)據(jù)處理技術(shù)的發(fā)展趨勢 267

18.3小結(jié) 270

更多>> 軟件截圖

推薦應(yīng)用

    其他版本下載

      精品推薦

      相關(guān)文章

      下載地址

      • 大數(shù)據(jù)處理之道pdf 高清完整版

      查看所有評論>> 網(wǎng)友評論

      發(fā)表評論

      (您的評論需要經(jīng)過審核才能顯示) 網(wǎng)友粉絲QQ群號:374962675

      查看所有 0條 評論>>

      更多>> 猜你喜歡