大數據分析與挖掘項目案例應用——以健康數據集為例

王潔,彭巖,周偉 主編;羅葳,李曉,郝博文,吳思竹,王嘉陽 副主編

  • 出版商: 清華大學
  • 出版日期: 2026-04-01
  • 定價: $479
  • 售價: $478
  • 語言: 簡體中文
  • ISBN: 7302708851
  • ISBN-13: 9787302708858
  • 相關分類: Data-mining
  • 下單後立即進貨 (約4週~6週)

  • 大數據分析與挖掘項目案例應用——以健康數據集為例-preview-1
  • 大數據分析與挖掘項目案例應用——以健康數據集為例-preview-2
  • 大數據分析與挖掘項目案例應用——以健康數據集為例-preview-3
  • 大數據分析與挖掘項目案例應用——以健康數據集為例-preview-4
  • 大數據分析與挖掘項目案例應用——以健康數據集為例-preview-5
  • 大數據分析與挖掘項目案例應用——以健康數據集為例-preview-6
  • 大數據分析與挖掘項目案例應用——以健康數據集為例-preview-7
大數據分析與挖掘項目案例應用——以健康數據集為例-preview-1

相關主題

商品描述

"本書專註於健康大數據領域的深入探索,巧妙融合理論與實踐,以Python為核心技術工具,全面而系統地介紹健康大數據分析與挖掘的基礎理論、技術方法,同時提供了豐富的應用案例。全書共分為7章,涵蓋健康大數據基本概念、數據采集和預處理、數據分析與挖掘、數據可視化及綜合案例等內容。全書本著循序漸進、理論聯系實際的原則,每個知識點均輔以典型實例,並通過心腦血管風險數據的分析與預警綜合案例,完整呈現了從數據清理、集成、轉換、統計分析到預測模型構建與優化的全流程,引導讀者將理論綜合運用於實踐,以實現知識的鞏固與技能的提升。 本書可作為高等院校大數據管理與應用、數據科學與大數據技術、計算機科學與技術等相關專業的教材,也可作為醫學生入門數據分析與挖掘的教學用書或數據分析與挖掘愛好者的自學用書。 "

作者簡介

"王潔,首都師範大學教授/博導。中國人工智能學會智慧醫療專委會委員,中國優選法統籌法與經濟數學研究會理事。近年來主持國家自然科學基金等10余課題,發表高水平論文近百篇,主編/參編著作5部。主要研究方向為大數據分析與挖掘,社交網絡信息分析與處理。彭巖,首都師範大學教授/博導。中國人工智能學會理事及智慧醫療專業委員會常委、北京市大數據協會副主任及常務理事。主要研究方向為大數據分析與數據挖掘、智能管理與決策。主持省部級以上科研項目十余項,發表高水平學術論文一百余篇。教學成果先後兩次榮獲北京市高等教育教學成果獎一等獎,科研成果獲省部級科學技術進步獎二等獎。周偉,中國醫學科學院國家人口健康科學數據中心,副主任、高級工程師,兼任中國醫院協會互聯網健康專業委員會主任委員、中國研究型醫院協會臨床數據與樣本資源庫專業委員會副主任委員等,長期從事衛生健康信息化、健康醫療科學數據匯聚與共享應用等方面研究與實踐。主持或參與國家級、省部級課題10余項,發表學術論文30余篇,參與研制國家或團體標準20余項,參編專著5個。"

目錄大綱

目錄

第1章健康大數據分析與挖掘概述

1.1健康大數據

1.1.1健康大數據的概念

1.1.2健康大數據的采集與管理

1.1.3健康大數據使用中的倫理問題

1.1.4相關問題的應對策略

1.1.5健康大數據的應用

1.2數據分析與挖掘

1.2.1數據分析與挖掘的基本流程

1.2.2健康大數據分析

1.2.3數據挖掘技術的應用

1.3本章小結

習題1

第2章大數據采集

2.1大數據采集概述

2.1.1大數據采集的概念

2.1.2大數據采集方法

2.1.3大數據采集平臺

2.2大數據來源

2.2.1大數據的主要來源

2.2.2健康大數據來源

2.2.3心腦血管數據集來源及介紹

2.3網絡爬蟲技術

2.3.1網絡爬蟲概述

2.3.2常用網絡爬蟲技術

2.3.3網頁數據的采集

2.3.4網頁數據采集實例

2.4網絡爬蟲工具

2.4.1Googlebot爬蟲

2.4.2八爪魚采集器

2.4.3火車頭采集器

2.4.4GooSeeker

2.5數據抽取技術

2.5.1數據抽取概述

2.5.2數據抽取工具

2.5.3網頁數據抽取

2.6案例——公共健康大數據采集

2.7本章小結

習題2

第3章數據預處理

3.1數據預處理概述

3.2數據集成

3.2.1數據集成概述

3.2.2數據集成的主要方法

3.2.3數據集成的關鍵問題

3.2.4案例——心腦血管數據集成

3.3數據清洗

3.3.1缺失值的檢測與處理

3.3.2重復值的檢測與處理

3.3.3異常值的檢測與處理

3.3.4案例——心腦血管數據值清洗

3.4數據轉換

3.4.1數據標準化

3.4.2數據歸一化

3.4.3數據編碼

3.4.4案例——心腦血管數據轉換

3.5數據脫敏與隱私保護

3.5.1數據脫敏與隱私保護概述

3.5.2數據脫敏原則

3.5.3數據脫敏方法

3.5.4案例——心腦血管數據脫敏

3.6數據變換

3.6.1數據變換概述

3.6.2線性空間變換

3.6.3域空間變換

3.6.4案例——心腦血管數據變換

3.7數據規約

3.7.1數據規約概述

3.7.2維度規約

3.7.3數量規約

3.7.4數據壓縮

3.7.5案例——心腦血管數據規約

3.8本章小結

習題3

第4章數據分析

4.1數據分析概述

4.2描述性統計分析

4.2.1描述性統計分析概述

4.2.2描述性統計分析的常用方法

4.2.3案例——心腦血管數據描述性統計分析

4.3相關分析

4.3.1相關分析概述

4.3.2相關分析的常用方法

4.3.3案例——心腦血管數據相關分析

4.4因子分析

4.4.1因子分析概述

4.4.2因子分析的常用方法

4.4.3案例——心腦血管數據因子分析

4.5對比分析

4.5.1絕對數比較

4.5.2相對數比較

4.5.3案例——心腦血管數據對比分析

4.6本章小結

習題4

第5章數據挖掘

5.1數據挖掘概述

5.2回歸分析

5.2.1回歸分析概述

5.2.2常用的回歸模型

5.2.3案例——心腦血管數據回歸分析

5.3分類分析

5.3.1分類分析概述

5.3.2分類分析的常用算法

5.3.3案例——心腦血管數據分類分析

5.4聚類分析

5.4.1聚類分析的定義

5.4.2聚類分析的常用算法

5.4.3案例——心腦血管數據聚類分析

5.5關聯規則挖掘

5.5.1關聯規則挖掘概述

5.5.2關聯規則挖掘的常用算法

5.5.3案例——心腦血管數據關聯規則挖掘

5.6本章小結

習題5

第6章數據可視化

6.1數據可視化概述

6.1.1數據可視化的一般流程

6.1.2數據可視化的方法

6.1.3數據可視化常用的工具

6.2數據可視化常用圖形

6.2.1柱狀圖

6.2.2折線柱狀組合圖

6.2.3特征熱力圖

6.2.4箱線圖

6.2.5平行坐標圖

6.3Python中數據可視化常用的庫

6.3.1Matplotlib庫

6.3.2Seaborn庫

6.3.3Pandas Plotting

6.3.4Bokeh庫

6.3.5Holoviews庫

6.4案例——心腦血管數據的可視化分析

6.5本章小結

習題6

第7章綜合案例——心腦血管風險數據的分析與預警

7.1案例概述

7.1.1案例介紹

7.1.2數據描述

7.2數據清理

7.2.1數據類型檢查

7.2.2缺失值、重復值及異常值的檢測

7.2.3缺失值、重復值及異常值的處理

7.3數據集成、轉換與規約

7.3.1數據集成

7.3.2數據轉換

7.3.3數據規約

7.4數據統計性分析

7.4.1心腦血管數據相互影響分析

7.4.2心腦血管數據分布分析

7.4.3心腦血管數據相關分析

7.5預測模型

7.5.1邏輯回歸模型

7.5.2決策樹模型

7.5.3梯度提升決策樹模型

7.5.4XGBoost模型

7.6模型優化策略

7.6.1超參數調優

7.6.2特征工程

7.6.3模型融合

7.7本章小結

習題7