R語言醫學數據分析實踐
李丹 宋立桓 蔡偉祺
- 出版商: 清華大學
- 出版日期: 2024-10-01
- 定價: $594
- 售價: 8.5 折 $505
- 語言: 簡體中文
- ISBN: 7302673489
- ISBN-13: 9787302673484
-
相關分類:
R 語言、Data Science
下單後立即進貨 (約4週~6週)
相關主題
商品描述
"公共醫學數據庫的應用越來越廣泛,利用這些數據庫進行論文寫作可以顯著減少研究成本和時間。《R語言醫學數據分析實踐》以公共醫學數據為例,講解如何使用R語言進行數據挖掘和統計分析。《R語言醫學數據分析實踐》通過大量精選的實例,對統計分析方法進行了深入淺出的介紹,旨在幫助讀者解決醫學數據分析中遇到的實際問題。《R語言醫學數據分析實踐》配套提供示例源碼、PPT課件、作者微信群答疑服務。 《R語言醫學數據分析實踐》共分為12章,內容包括R語言介紹、R語言基本語法、R語言數據清洗、R語言數據可視化、R語言統計建模分析方法、R語言機器學習實戰入門、列線圖在預測模型中的應用、臨床數據挖掘中的生存分析、NHANES 數據庫挖掘實戰、GEO數據庫挖掘實戰、孟德爾隨機化分析實戰、單細胞測序實戰。 《R語言醫學數據分析實踐》適用於臨床醫學、公共衛生及其他醫學相關專業的本科生和研究生使用,也可作為其他專業的學生和科研工作者學習數據分析的參考書。閱讀本書,讀者不僅能夠掌握使用R語言及相關包快速解決實際問題的方法,還能更深入地理解公共醫學數據庫挖掘的實戰精髓。"
目錄大綱
目 錄
第1章 R語言介紹 1
1.1 R語言概述 1
1.1.1 什麽是R語言 1
1.1.2 臨床醫生使用R語言的優勢 1
1.2 R編程環境的搭建 2
1.2.1 R語言的下載和安裝 3
1.2.2 RStudio的下載和安裝 5
1.2.3 RStudio操作 6
1.3 R語言包 8
1.3.1 什麽是R包 8
1.3.2 R包的安裝 8
1.4 初識R語言的註意事項 9
第2章 R語言的基本語法 11
2.1 R語言的數據結構 11
2.1.1 向量 11
2.1.2 矩陣 13
2.1.3 數組 15
2.1.4 數據框 16
2.2 R語言函數簡介 17
2.2.1 函數的定義 17
2.2.2 常用內置函數的使用 18
2.3 R語言中的數據讀寫 19
2.3.1 讀取文件 19
2.3.2 寫入文件 20
2.3.3 讀寫其他數據文件 21
2.4 R語言流程控制 21
2.4.1 判斷語句 21
2.4.2 循環語句 23
2.5 字符串操作 24
2.6 R語言數據保存 26
第3章 R語言數據清洗 27
3.1 數據清洗的重要性 27
3.2 數據質量評估 28
3.3 數據清洗 30
3.3.1 缺失值檢查及處理 30
3.3.2 異常值檢查及處理 32
3.3.3 重復值檢查及處理 34
3.4 數據清洗dplyr包的使用 34
3.5 數據清洗實戰 37
第4章 R語言數據可視化 42
4.1 基礎繪圖 42
4.2 ggplot2繪圖 45
4.2.1 ggplot2語法入門及相關軟件包 46
4.2.2 ggplot2繪制簡單的統計圖形 46
4.2.3 ggplot2繪制復雜圖形(統計圖的組合、分面展示) 54
4.3 高質量SCI論文繪圖 58
4.3.1 聚類分析和相關分析的熱圖詳解 58
4.3.2 ROC曲線的繪制 63
4.3.3 火山圖的繪制 67
第5章 R語言統計建模分析 71
5.1 經典統計分析 71
5.1.1 t檢驗 71
5.1.2 方差分析 73
5.1.3 卡方檢驗 74
5.1.4 簡單線性回歸分析 75
5.2 高級回歸分析 77
5.2.1 多重線性回歸分析 77
5.2.2 Logistic回歸分析 78
5.2.3 回歸分析實戰 80
5.3 SCI文章兩表一圖實戰 84
5.3.1 SCI文章—基線資料表 84
5.3.2 SCI文章—單因素回歸分析表或多因素回歸分析表 88
5.3.3 SCI文章—亞組分析的森林圖 89
5.3.4 限制性立方樣條圖 92
第6章 R語言機器學習實戰入門 95
6.1 什麽是機器學習 95
6.2 機器學習的流程 96
6.2.1 數據收集 96
6.2.2 數據預處理 97
6.2.3 特徵工程 97
6.2.4 模型構建和訓練 98
6.3 機器學習分類 98
6.3.1 監督學習 98
6.3.2 無監督學習 99
6.3.3 強化學習 100
6.4 過擬合和欠擬合 101
6.4.1 過擬合 101
6.4.2 欠擬合 101
6.5 衡量機器學習模型的指標 102
6.5.1 正確率、精確率和召回率 102
6.5.2 幾個常見的比率 104
6.5.3 混淆矩陣 104
6.5.4 F1 score和ROC曲線 105
6.6 K折交叉驗證 108
6.7 支持向量機概述 108
6.8 隨機森林概述 110
6.9 糖尿病風險預測實戰 110
6.9.1 數據集背景 110
6.9.2 數據預處理 112
6.9.3 模型建立 113
6.9.4 模型評估 113
6.10 ICU患者死亡率預測實戰 115
6.10.1 數據集背景 115
6.10.2 數據預處理 115
6.10.3 模型建立 118
6.10.4 模型評估 120
第7章 列線圖在預測模型中的應用 122
7.1 列線圖基本原理 122
7.2 列線圖的三大要素 123
7.3 列線圖解讀 123
7.4 列線圖的實戰 124
7.4.1 列線圖R實例一 124
7.4.2 列線圖R實例二 126
7.5 列線圖在數據挖掘中的應用 128
第8章 臨床數據挖掘中的生存分析 133
8.1 基本概念和原理 133
8.1.1 什麽是生存數據 133
8.1.2 生存分析的含義 134
8.1.3 為什麽要用生存分析 134
8.1.4 生存分析的刪失 135
8.1.5 生存分析的常用方法 135
8.2 Kaplan-Meier法生存分析實戰 137
8.2.1 Kaplan-Meier法介紹 137
8.2.2 Kaplan-Meier生存曲線R語言實戰 137
8.3 Cox生存分析實戰 142
8.3.1 Cox回歸模型介紹 142
8.3.2 Cox回歸模型實戰 143
8.4 競爭風險模型 144
8.4.1 臨床研究中如何處理競爭事件 145
8.4.2 競爭風險模型R語言實戰 145
第9章 NHANES數據庫挖掘實戰 149
9.1 NHANES數據庫介紹 149
9.2 NHANES數據庫的下載與合並 152
9.3 NHANES權重介紹及使用 155
9.3.1 什麽是權重 156
9.3.2 NHANES權重分析的必要性 156
9.3.3 NHANES權重如何選擇 158
9.3.4 NHANES權重實戰 160
9.4 NHANES數據分析實戰 162
9.5 NHANES數據庫發文選題介紹 173
第10章 GEO數據庫挖掘實戰 175
10.1 GEO數據庫介紹 175
10.1.1 GEO數據庫概況 175
10.1.2 GEO數據庫組織結構 176
10.2 GEO數據庫檢索 176
10.3 芯片基礎知識 179
10.4 GEO數據庫分析實戰 179
10.4.1 找GSE編號 180
10.4.2 安裝生物信息分析所需的R包 181
10.4.3 下載表達矩陣 182
10.4.4 獲取分組信息 184
10.4.5 獲取表達矩陣並檢查數據 185
10.4.6 轉換探針ID 186
10.4.7 差異分析 189
10.4.8 分析結果可視化—火山圖、熱圖 192
10.5 GEO多數據集差異分析 195
第11章 孟德爾隨機化分析實戰 200
11.1 什麽是孟德爾隨機化 200
11.1.1 基因型和表型 200
11.1.2 孟德爾隨機化簡介 201
11.2 孟德爾隨機化研究流程 204
11.2.1 MR研究流程七步法 204
11.2.2 MR分析數據庫介紹 207
11.3 孟德爾隨機化分析實戰 211
11.3.1 TwoSampleMR包雙樣本MR分析 211
11.3.2 MR分析網站—MR-Base實戰 219
11.4 孟德爾隨機化研究論文復現實戰 225
11.5 孟德爾隨機化分析的優勢和論文選題 236
第12章 單細胞測序實戰 239
12.1 單細胞測序概述 239
12.1.1 為什麽要做單細胞測序 239
12.1.2 單細胞測序技術原理 240
12.2 單細胞測序分析流程 241
12.2.1 讀取原始數據並建立表達矩陣 241
12.2.2 消除技術誤差 242
12.2.3 細胞聚類與可視化 244
12.3 單細胞轉錄組分析實戰 248
12.3.1 安裝Seurat包 248
12.3.2 數據導入 249
12.3.3 數據質控 251
12.3.4 尋找高變基因 253
12.3.5 PCA降維 254
12.3.6 細胞聚類 258
12.3.7 尋找差異表達標記基因 260
12.3.8 細胞註釋 262
12.4 單細胞測序多樣本分析實戰 267
12.5 單細胞測序臨床應用 278