R語言醫學數據分析實踐

李丹 宋立桓 蔡偉祺

  • 出版商: 清華大學
  • 出版日期: 2024-10-01
  • 定價: $594
  • 售價: 8.5$505
  • 語言: 簡體中文
  • ISBN: 7302673489
  • ISBN-13: 9787302673484
  • 相關分類: R 語言Data Science
  • 下單後立即進貨 (約4週~6週)

  • R語言醫學數據分析實踐-preview-1
  • R語言醫學數據分析實踐-preview-2
  • R語言醫學數據分析實踐-preview-3
R語言醫學數據分析實踐-preview-1

相關主題

商品描述

"公共醫學數據庫的應用越來越廣泛,利用這些數據庫進行論文寫作可以顯著減少研究成本和時間。《R語言醫學數據分析實踐》以公共醫學數據為例,講解如何使用R語言進行數據挖掘和統計分析。《R語言醫學數據分析實踐》通過大量精選的實例,對統計分析方法進行了深入淺出的介紹,旨在幫助讀者解決醫學數據分析中遇到的實際問題。《R語言醫學數據分析實踐》配套提供示例源碼、PPT課件、作者微信群答疑服務。 《R語言醫學數據分析實踐》共分為12章,內容包括R語言介紹、R語言基本語法、R語言數據清洗、R語言數據可視化、R語言統計建模分析方法、R語言機器學習實戰入門、列線圖在預測模型中的應用、臨床數據挖掘中的生存分析、NHANES 數據庫挖掘實戰、GEO數據庫挖掘實戰、孟德爾隨機化分析實戰、單細胞測序實戰。 《R語言醫學數據分析實踐》適用於臨床醫學、公共衛生及其他醫學相關專業的本科生和研究生使用,也可作為其他專業的學生和科研工作者學習數據分析的參考書。閱讀本書,讀者不僅能夠掌握使用R語言及相關包快速解決實際問題的方法,還能更深入地理解公共醫學數據庫挖掘的實戰精髓。"

目錄大綱

目    錄

第1章  R語言介紹 1

1.1  R語言概述 1

1.1.1  什麽是R語言 1

1.1.2  臨床醫生使用R語言的優勢 1

1.2  R編程環境的搭建 2

1.2.1  R語言的下載和安裝 3

1.2.2  RStudio的下載和安裝 5

1.2.3  RStudio操作 6

1.3  R語言包 8

1.3.1  什麽是R包 8

1.3.2  R包的安裝 8

1.4  初識R語言的註意事項 9

第2章  R語言的基本語法 11

2.1  R語言的數據結構 11

2.1.1  向量 11

2.1.2  矩陣 13

2.1.3  數組 15

2.1.4  數據框 16

2.2  R語言函數簡介 17

2.2.1  函數的定義 17

2.2.2  常用內置函數的使用 18

2.3  R語言中的數據讀寫 19

2.3.1  讀取文件 19

2.3.2  寫入文件 20

2.3.3  讀寫其他數據文件 21

2.4  R語言流程控制 21

2.4.1  判斷語句 21

2.4.2  循環語句 23

2.5  字符串操作 24

2.6  R語言數據保存 26

第3章  R語言數據清洗 27

3.1  數據清洗的重要性 27

3.2  數據質量評估 28

3.3  數據清洗 30

3.3.1  缺失值檢查及處理 30

3.3.2  異常值檢查及處理 32

3.3.3  重復值檢查及處理 34

3.4  數據清洗dplyr包的使用 34

3.5  數據清洗實戰 37

第4章  R語言數據可視化 42

4.1  基礎繪圖 42

4.2  ggplot2繪圖 45

4.2.1  ggplot2語法入門及相關軟件包 46

4.2.2  ggplot2繪制簡單的統計圖形 46

4.2.3  ggplot2繪制復雜圖形(統計圖的組合、分面展示) 54

4.3  高質量SCI論文繪圖 58

4.3.1  聚類分析和相關分析的熱圖詳解 58

4.3.2  ROC曲線的繪制 63

4.3.3  火山圖的繪制 67

第5章  R語言統計建模分析 71

5.1  經典統計分析 71

5.1.1  t檢驗 71

5.1.2  方差分析 73

5.1.3  卡方檢驗 74

5.1.4  簡單線性回歸分析 75

5.2  高級回歸分析 77

5.2.1  多重線性回歸分析 77

5.2.2  Logistic回歸分析 78

5.2.3  回歸分析實戰 80

5.3  SCI文章兩表一圖實戰 84

5.3.1  SCI文章—基線資料表 84

5.3.2  SCI文章—單因素回歸分析表或多因素回歸分析表 88

5.3.3  SCI文章—亞組分析的森林圖 89

5.3.4  限制性立方樣條圖 92

第6章  R語言機器學習實戰入門 95

6.1  什麽是機器學習 95

6.2  機器學習的流程 96

6.2.1  數據收集 96

6.2.2  數據預處理 97

6.2.3  特徵工程 97

6.2.4  模型構建和訓練 98

6.3  機器學習分類 98

6.3.1  監督學習 98

6.3.2  無監督學習 99

6.3.3  強化學習 100

6.4  過擬合和欠擬合 101

6.4.1  過擬合 101

6.4.2  欠擬合 101

6.5  衡量機器學習模型的指標 102

6.5.1  正確率、精確率和召回率 102

6.5.2  幾個常見的比率 104

6.5.3  混淆矩陣 104

6.5.4  F1 score和ROC曲線 105

6.6  K折交叉驗證 108

6.7  支持向量機概述 108

6.8  隨機森林概述 110

6.9  糖尿病風險預測實戰 110

6.9.1  數據集背景 110

6.9.2  數據預處理 112

6.9.3  模型建立 113

6.9.4  模型評估 113

6.10  ICU患者死亡率預測實戰 115

6.10.1  數據集背景 115

6.10.2  數據預處理 115

6.10.3  模型建立 118

6.10.4  模型評估 120

第7章  列線圖在預測模型中的應用 122

7.1  列線圖基本原理 122

7.2  列線圖的三大要素 123

7.3  列線圖解讀 123

7.4  列線圖的實戰 124

7.4.1  列線圖R實例一 124

7.4.2  列線圖R實例二 126

7.5  列線圖在數據挖掘中的應用 128

第8章  臨床數據挖掘中的生存分析 133

8.1  基本概念和原理 133

8.1.1  什麽是生存數據 133

8.1.2  生存分析的含義 134

8.1.3  為什麽要用生存分析 134

8.1.4  生存分析的刪失 135

8.1.5  生存分析的常用方法 135

8.2  Kaplan-Meier法生存分析實戰 137

8.2.1  Kaplan-Meier法介紹 137

8.2.2  Kaplan-Meier生存曲線R語言實戰 137

8.3  Cox生存分析實戰 142

8.3.1  Cox回歸模型介紹 142

8.3.2  Cox回歸模型實戰 143

8.4  競爭風險模型 144

8.4.1  臨床研究中如何處理競爭事件 145

8.4.2  競爭風險模型R語言實戰 145

第9章  NHANES數據庫挖掘實戰 149

9.1  NHANES數據庫介紹 149

9.2  NHANES數據庫的下載與合並 152

9.3  NHANES權重介紹及使用 155

9.3.1  什麽是權重 156

9.3.2  NHANES權重分析的必要性 156

9.3.3  NHANES權重如何選擇 158

9.3.4  NHANES權重實戰 160

9.4  NHANES數據分析實戰 162

9.5  NHANES數據庫發文選題介紹 173

第10章  GEO數據庫挖掘實戰 175

10.1  GEO數據庫介紹 175

10.1.1  GEO數據庫概況 175

10.1.2  GEO數據庫組織結構 176

10.2  GEO數據庫檢索 176

10.3  芯片基礎知識 179

10.4  GEO數據庫分析實戰 179

10.4.1  找GSE編號 180

10.4.2  安裝生物信息分析所需的R包 181

10.4.3  下載表達矩陣 182

10.4.4  獲取分組信息 184

10.4.5  獲取表達矩陣並檢查數據 185

10.4.6  轉換探針ID 186

10.4.7  差異分析 189

10.4.8  分析結果可視化—火山圖、熱圖 192

10.5  GEO多數據集差異分析 195

第11章  孟德爾隨機化分析實戰 200

11.1  什麽是孟德爾隨機化 200

11.1.1  基因型和表型 200

11.1.2  孟德爾隨機化簡介 201

11.2  孟德爾隨機化研究流程 204

11.2.1  MR研究流程七步法 204

11.2.2  MR分析數據庫介紹 207

11.3  孟德爾隨機化分析實戰 211

11.3.1  TwoSampleMR包雙樣本MR分析 211

11.3.2  MR分析網站—MR-Base實戰 219

11.4  孟德爾隨機化研究論文復現實戰 225

11.5  孟德爾隨機化分析的優勢和論文選題 236

第12章  單細胞測序實戰 239

12.1  單細胞測序概述 239

12.1.1  為什麽要做單細胞測序 239

12.1.2  單細胞測序技術原理 240

12.2  單細胞測序分析流程 241

12.2.1  讀取原始數據並建立表達矩陣 241

12.2.2  消除技術誤差 242

12.2.3  細胞聚類與可視化 244

12.3  單細胞轉錄組分析實戰 248

12.3.1  安裝Seurat包 248

12.3.2  數據導入 249

12.3.3  數據質控 251

12.3.4  尋找高變基因 253

12.3.5  PCA降維 254

12.3.6  細胞聚類 258

12.3.7  尋找差異表達標記基因 260

12.3.8  細胞註釋 262

12.4  單細胞測序多樣本分析實戰 267

12.5  單細胞測序臨床應用 278