R語言與數據分析實戰 R语言与数据分析实战

Name: R語言與數據分析實戰
Price: 453 TWD
Availability: InStock
Author: [韓]徐瑉久
ISBN: 7115442460

[韓]徐瑉久

出版商: 人民郵電
出版日期: 2017-01-01
定價: $534
售價: 8.5 折 $453
語言: 簡體中文
頁數: 460
裝訂: 平裝
ISBN: 7115442460
ISBN-13: 9787115442468
相關分類: R 語言

立即出貨 (庫存=1)

買這商品的人也買了...

~~$990~~ $891

C++ Primer, 4/e (中文版)
~~$100~~ $98

HC-SR501 人體紅外感應模組(PIR)
~~$780~~ $616

精通 Python｜運用簡單的套件進行現代運算 (Introducing Python: Modern Computing in Simple Packages)
~~$360~~ $284

完整學會 Git, GitHub, Git Server 的24堂課
~~$3,070~~ $2,916

CISSP All-in-One Exam Guide, 7/e (Hardcover)
$279

R數據分析秘笈
~~$580~~ $452

Python 機器學習 (Python Machine Learning)
~~$580~~ $458

網站擷取｜使用 Python (Web Scraping with Python: Collecting Data from the Modern Web)
$351

R 語言數據分析
~~$590~~ $502

今天不學機器學習，明天就被機器取代：從 Python 入手+演算法
~~$680~~ $578

超圖解 Arduino 互動設計入門, 3/e
~~$500~~ $425

Python 自動化的樂趣｜搞定重複瑣碎 & 單調無聊的工作 (中文版) (Automate the Boring Stuff with Python: Practical Programming for Total Beginners)
~~$360~~ $180

深度學習快速入門 — 使用 TensorFlow (Getting started with TensorFlow)
~~$580~~ $458

演算法技術手冊, 2/e (Algorithms in a Nutshell: A Practical Guide, 2/e)
~~$480~~ $408

系統管理員懶人包｜Shell Script 自動化指令集 (Wicked Cool Shell Scripts)
$207

Python 極客項目編程 (Python Playground)
~~$450~~ $355

Effective C# 中文版 | 寫出良好 C# 程式的 50個具體做法, 3/e (Effective C# : 50 Specific Ways to Improve Your C#(Covers C# 6.0), 3/e)
~~$590~~ $460

TensorFlow + Keras 深度學習人工智慧實務應用
~~$390~~ $195

寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
~~$500~~ $395

Docker 入門與實戰, 2/e
~~$580~~ $458

Deep Learning｜用 Python 進行深度學習的基礎理論實作
~~$520~~ $410

Soft Skills 軟實力｜軟體開發人員的生存手冊 (Soft Skills: The software developer's life manual)
~~$450~~ $270

演算法圖鑑：26種演算法 + 7種資料結構，人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解
~~$500~~ $390

為你自己學 Git
~~$699~~ $594

Python 入門邁向高手之路王者歸來

商品描述

本書以R語言的“編程屬性”為中心，內容涵蓋R語言基礎理論到實際數據分析，通過分析模型和算法等更實用的示例，講解了數據可視化、統計分析、數據挖掘、機器學習等實際業務中常用的實操技巧，以及代碼生成方法。書中還收錄了作者的實戰經驗和學習體會，可以解決數據分析過程中出現的各種問題。對R語言有一定瞭解但在實際運用中感到困惑的讀者，可以在書中找到多種解題方法，並能夠迅速應用於一線業務。

作者簡介

2007年至今，在Google Korea擔任軟件工程師。曾開發全球檢索相關產品，近來負責自然語言處理相關業務，研究如何為用戶查詢提供更好的檢索品質。延世大學計算機工程學士、韓國科學技術院（KAIST）計算機工程碩士、廣播通信大學信息統計學學士，積極參與Coursera等組織的MOOC。

目錄大綱

推薦語
前言
本書結構

第1章搭建R編程環境1
1.1為什麼是R 2
1.2安裝R 2
1.2.1在Windows操作系統中安裝R 4
1.2.2在Linux系統下安裝R 6
1.2.3在MacOSX中安裝R 12
1.3啟動R 15
1.4查看幫助16
1.5 R集成開發環境19
1.6批處理21
1.7使用包22
參考資料24

第2章數據類型25
2.1變量26
2.1.1變量命名規則26
2.1.2變量賦值26
2.2調用函數時指定參數27
2.3標量28
2.3.1數值28
2.3.2 NA 29
2.3.3 NULL 29
2.3.4字符串30
2.3.5邏輯值31
2.3.6因子32
2.4向量34
2.4.1創建向量35
2.4.2訪問向量中的數據36
2.4.3向量運算39
2.4.4連續數字組成的向量41
2.4.5保存重複值的向量42
2.5列表43
2.5.1創建列表43
2.5.2訪問列表中的數據44
2.6矩陣45
2.6.1創建矩陣45
2.6.2訪問矩陣中的數據48
2.6.3矩陣運算49
2.7數組52
2.7.1創建數組53
2.7.2訪問數組數據54
2.8數據框54
2.8.1創建數據框55
2.8.2訪問數據框57
2.8.3實用工具函數59
2.9類型判別6 1
2.10類型轉換62
參考資料64

第3章R語言編程65
3.1 R的特徵66
3.2流程控制（條件語句與循環語句）66
3.2.1 if語句66
3.2.2循環語句67
3.3運算69
3.3.1數值運算70
3.3.2向量運算70
3.3.3 NA處理72
3.4定義函數74
3.4.1基本定義74
3.4.2可變長參數75
3.4.3嵌套函數76
3.5作用域77
3.6值傳遞80
3.7對象的不變性81
3.8模塊模式83
3.8.1隊列84
3.8.2編寫隊列模塊85
參考資料86

第4章數據操作Ⅰ：基於向量的處理與外部數據處理87
4.1鳶尾花數據集88
4.2讀寫文件90
4.2 .1讀寫CSV文件90
4.2.2讀寫對象文件93
4.3合併數據框的行與列94
4.4 apply系列函數96
4.4.1 apply（）97
4.4.2 lapply（）函數99
4.4.3 sapply（） 102
4.4.4 tapply（）104
4.4.5 mapply（）106
4.5數據分組並調用函數107
4.5.1 summaryBy（）108
4.5.2 orderBy（）110
4.5.3 sampleBy（）112
4.6數據拆分與合併114
4.6.1 split（）115
4.6.2 subset（）116
4.6.3數據合併117
4.7數據排序119
4.7.1 sort（）119
4.7.2 order（）120
4.8訪問數據框中的列121
4.8.1 with（）121
4.8.2 within（）122
4.8.3 attach（）與detach（）124
4.9查找符合條件的數據索引126
4.10分組運算127
4.11更易處理的數據表現形式128
4.12與MySQL聯動131
4.12.1安裝MySQL及RMySQL 131
4.12.2使用RMySQL訪問MySQL數據庫140
參考資料141

第5章數據操作Ⅱ ：數據處理及加工143
5.1數據處理及加工相關包144
5.2使用SQL處理數據144
5.3數據分析：拆分、應用、合併146
5.3.1 adply（）函數147
5.3.2 ddply（）函數149
5.3.3輕鬆進行按組運算150
5.3.4 mdply（）153
5.4數據結構變形與匯總154
5.4.1 melt（）155
5.4.2 cast（）157
5.4.3數據匯總158
5.5數據表：更快、更方便的數據框160
5.5.1創建數據表160
5.5.2數據訪問與分組運算162
5.5.3使用key快速訪問數據164
5.5.4使用key合併數據表166
5.5.5利用引用修改數據167
5.5.6將列表轉換為數據框16 8
5.6更好的循環語句170
5.7並行處理172
5.7.1設置進程數173
5.7.2 plyr並行化174
5.7.3 foreach並行化176
5.8單元測試與調試177
5.8.1 testthat 177
5.8.2使用test_that（）進行測試分組179
5.8.3測試文件的結構180
5.8.4調試181
5.9測定代碼執行時間187
5.9.1測定命令語句執行時間187
5.9.2代碼性能測試189
參考資料191

第6章繪圖193
6.1散點圖194
6.2圖形選項195
6.2.1坐標軸名稱196
6.2.2圖形標題197
6.2.3點的類型197
6.2.4點的大小198
6.2.5顏色199
6.2.6坐標軸的取值範圍200
6.2 .7圖形類型201
6.2.8線型204
6.2.9圖形排列204
6.2.10抖動205
6.3基本圖形207
6.3.1點207
6.3.2折線209
6.3.3直線211
6.3.4曲線212
6.3.5多邊形213
6.4字符串216
6.5識別圖形中的數據218
6.6圖例219
6.7繪製矩陣中的數據（matplot、matlines、matpoints）220
6.8應用圖形221
6.8.1箱線圖222
6.8.2直方圖225
6.8.3密度圖227
6.8.4條形圖229
6.8.5餅圖230
6. 8.6馬賽克圖232
6.8.7散點圖矩陣234
6.8.8透視圖、等高線圖235
參考資料238

第7章統計分析239
7.1生成隨機數與分佈函數240
7.2基本統計量243
7.2.1樣本均值、樣本方差、樣本標準差243
7.2.2五數概括244
7.2.3眾數246
7.3樣本抽取246
7.3.1簡單隨機抽樣247
7.3.2考慮權值的樣本抽取248
7.3.3分層隨機抽樣249
7.3.4系統抽樣251
7.4列聯表252
7.4.1創建列聯表253
7.4.2求和與百分比254
7.4.3獨立性檢驗256
7.4.4費舍爾精確檢驗261
7.4.5 McNemar檢驗262
7.5擬合優度檢驗265
7.5.1卡方檢驗265
7.5.2夏皮羅—威爾克檢驗265
7.5.3柯爾莫諾夫—斯米爾諾夫檢驗266
7.5.4 Q—Q圖268
7.6相關分析271
7.6.1皮爾遜相關係數272
7.6.2斯皮爾曼相關係數275
7.6.3肯德爾等級相關係數277
7.6.4相關係數檢驗277
7.7估計與檢驗278
7.7.1單樣本均值279
7.7.2兩獨立樣本均值282
7.7.3兩配對樣本均值285
7.7.4兩樣本方差287
7.7.5單樣本比率288
7.7.6兩樣本比率290
參考資料291

第8章線性回歸293
8.1線性回歸的基本假設294
8.2簡單線性回歸295
8.2.1創建模型295
8.2.2提取線性回歸結果296
8.2.3預測與置信區間298
8.2.4模型評估299
8.2.5方差分析及模型間比較302
8.2.6模型診斷圖形304
8.2.7回歸直線的可視化306
8.3多元回歸307
8.3.1創建及評估模型307
8.3.2分類變量308
8.3.3多元回歸模型的可視化310
8.3.4使用函數I（）312
8.3.5變量的變換314
8.3.6交互作用314
8.4異常值320
8.5變量選擇321
8.5.1選擇變量的方法322
8.5 .2比較所有情形325
參考資料328

第9章分類算法Ⅰ：數據探索、預處理、模型評估方法331
9.1數據探索332
9.1.1技術統計332
9.1.2數據可視化337
9.2預處理340
9.2.1數據變換340
9.2.2缺失值處理345
9.2.3變量選擇348
9.3模型評估方法358
9.3.1評估指標358
9.3.2 ROC曲線361
9.3.3交叉檢驗365
參考資料375

第10章分類算法：機器學習算法377
10.1邏輯回歸模型378
10.2多項邏輯回歸分析381
10.3決策樹384
10.3.1決策樹模型385
10.3.2分類與回歸樹386
10.3.3條件推斷決策樹389
10.3.4隨機森林391
10.4神經網絡396
10.4.1神經網絡模型396
10.4.2神經網絡模型學習398
10.5支持向量機402
10.5.1支持向量機模型403
10.5.2支持向量機學習404
10.6類別不平衡408
10.6.1向上取樣、向下取樣409
10.6.2 SMOTE 411
10.7文檔分類413
10.7.1語料庫與文檔413
10.7.2文檔變換414
10.7.3文檔的矩陣表示415
10.7.4高頻詞418
10.7.5詞語之間的相關關係419
10.7.6文檔分類420
10.7.7從文件創建語料庫422
10.7.8元數據424
10.8 caret包427
參考資料431

第11章利用泰坦尼克數據練習機器學習433
11.1泰坦尼克數據格式434
11.2讀入數據434
11.2.1轉換數據類型435
11.2.2分離測試數據437
11.2.3準備交叉檢驗438
11.3數據探索440
11.4評估指標444
11.5決策樹模型444
11.5.1 rpart的交叉檢驗445
11.5.2準確度評估446
11.5.3條件推斷決策樹447
11.6發現其他特徵448
11.6.1使用ticket識別家庭448
11.6.2預測生還概率449
11.6.3添加家庭ID 450
11.6.4合併家庭成員的生還概率452
11.6.5使用家庭信息建模ctree（）454
11.6.6性能評估455
11.7交叉檢驗並行化457
11.7.1反復執行3次10層交叉檢驗457
11.7.2使用foreach（）與%dopar%進行並行化458
11.8開發更好的算法459
參考資料460