零基礎學大數據算法 零基础学大数据算法
王宏志, 林可
- 出版商: 電子工業
- 出版日期: 2016-07-01
- 定價: $354
- 售價: 8.5 折 $301
- 語言: 簡體中文
- 頁數: 262
- 裝訂: 平裝
- ISBN: 7121289377
- ISBN-13: 9787121289378
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
買這商品的人也買了...
-
$780$616 -
$560$442 -
$780$616 -
$360$284 -
$400$316 -
$490$417 -
$690$538 -
$450$356 -
$820$697 -
$620$484 -
$580$458 -
$560$437 -
$699$594 -
$650$507 -
$458$431 -
$420$332 -
$450$356 -
$490$382 -
$500$395 -
$480$408 -
$820$697 -
$520$411 -
$580$493 -
$490$387 -
$620$558
相關主題
商品描述
<內容介紹>
本書是通俗易懂的大數據算法教程。通篇採用師生對話的形式,旨在用通俗的語言、輕鬆的氣氛,幫助讀者理解大數據計算領域中的基礎算法和思想。本書由背景篇、理論篇、應用篇和實踐篇四部分組成。背景篇介紹大數據、算法、大數據算法等基本概念和背景;理論篇介紹解決大數據問題的亞線性算法、磁盤算法、並行算法、眾包算法的基本思想和理論知識;應用篇介紹與大數據問題息息相關的數據挖掘和推薦系統的相關知識;實踐篇從實際應用出發,引導讀者動手操作,幫助讀者通過實際程序和實驗驗證磁盤算法、並行算法和眾包算法。在講解每一個大數據問題之前,本書都會介紹大量的經典算法和基礎數據結構知識,不僅可以幫助學習過數據結構與算法、算法設計與分析等課程的同學複習,同時能夠讓入門的“小菜鳥”們,不會因為沒有學習過經典算法而對本書望而卻步,輕鬆地掌握大數據算法!
<章節目錄>
第1篇背景篇
第1章何謂大數據4
1.1身邊的大數據4
1.2大數據的特點和應用6
第2章何謂算法8
2.1算法的定義8
2.2算法的分析14
2.3基礎數據結構——線性表24
2.4遞歸——以階乘為例28
第3章何謂大數據算法31
第2篇理論篇
第4章窺一斑而見全豹——亞線性算法34
4.1亞線性算法的定義34
4.2空間亞線性算法35
4.2.1水庫抽樣35
4.2.2數據流中的頻繁元素37
4.3時間亞線性計算算法40
4.3.1圖論基礎回顧40
4.3.2平面圖直徑45
4.3.3最小生成樹46
4.4時間亞線性判定算法53
4.4.1全0數組的判定53
4.4.2數組有序的判定55
第5章價錢與性能的平衡——磁盤算法58
5.1磁盤算法概述58
5.2外排序62
5.3外存數據結構——磁盤查找樹71
5.3.1二叉搜索樹回顧71
5.3.2外存數據結構——B樹78
5.3.3高維外存查找結構——KD樹80
5.4表排序83
5.5表排序的應用86
5.5.1歐拉迴路技術86
5.5.2父子關係判定87
5.5.3前序計數88
5.6時間前向處理技術90
5.7縮圖法98
第6章1+1>2——並行算法103
6.1 MapReduce初探103
6.2 MapReduce算法實例106
6.2.1字數統計106
6.2.2平均數計算108
6.2.3單詞共現矩陣計算111
6.3 MapReduce進階算法115
6.3.1 join操作115
6.3.2 MapReduce圖算法概述122
6.3.3基於路徑的圖算法125
第7章超越MapReduce的並行計算131
7.1 MapReduce平臺的局限131
7.2基於圖處理平臺的並行算法136
7.2.1概述136
7.2.2 BSP模型下的單源最短路徑137
7.2.3計算子圖同構141
第8章眾人拾柴火焰高——眾包算法144
8.1眾包概述144
8.1.1眾包的定義144
8.1.2眾包應用舉例146
8.1.3眾包的特點149
8.2眾包算法例析152
第3篇應用篇
第9章大數據中有黃金——數據挖掘158
9.1數據挖掘概述158
9.2數據挖掘的分類159
9.3聚類算法——k—means160
9.4分類算法——Naive Bayes166
第10章推薦系統170
10.1推薦系統概述170
10.2基於內容的推薦方法173
10.3協同過濾模型176
第4篇實踐篇
第11章磁盤算法實踐186
第12章並行算法實踐194
12.1 Hadoop MapReduce實踐194
12.1.1環境搭建194
12.1.2配置Hadoop201
12.1.3 “Hello World”程序——WordCount203
12.1.4 Hadoop實踐案例——記錄去重213
12.1.5 Hadoop實踐案例——等值連接216
12.1.6多機配置221
12.2適於迭代並行計算的平臺——Spark224
12.2.1 Spark初探224
12.2.2單詞出現行計數230
12.2.3在Spark上實現WordCount236
12.2.4在HDFS上使用Spark241
12.2.5 Spark的核心操作——Transformation和Action244
12.2.6 Spark實踐案例——PageRank247
第13章眾包算法實踐251
13.1認識AMT251
13.2成為眾包工人252