數據科學時代 基礎,挑戰和機遇

李瑛

相關主題

商品描述

本書分為四個分,第一分討論數據科學的基礎,明確數據科學的跨學科性,並提出倫理方面的考量框架。第二分討論數據科學的應用,通過六個例子引出分析準則,討論分析準則的應用以及數據科學的跨領域應用。第三分討論數據科學應用方面的挑戰,括數據處理、模型的構建與署、可靠性、可理解性、設定正確的目標、容忍失敗,以及倫理、法律和社會挑戰等要素。第四分針對數據科學時代的核心問題,討論了教育與智能化、監管、研究與開發、質量障和倫理管理方面的問題,並給出解決建議。本書可以作為對數據科學領域感興趣的讀者及相關從業者的參考資料。

作者簡介

克裏斯·維金斯(Chris Wiggins),哥倫比亞大學副教授,《紐約時報》首席數據科學家。他是哥倫比亞大學數據科學研究所執行委員會的創始成員,同時任職於應用物理與應用數學系以及系統生物學系,並兼任統計學系教師。

目錄大綱

譯者序

前言

關於作者

引言 1

第一分 數據科學概覽

第1章 數據科學基礎 6

1.1 定義 6

1.1.1 數據科學—洞察 7

1.1.2 數據科學—結論 9

1.1.3 規模 10

1.2 數據科學的興起 11

1.2.1 統計學 12

1.2.2 可視化 13

1.2.3 運籌學 14

1.2.4 計算科學 16

1.2.5 機器學習 19

1.2.6 其他相關 21

第2章 數據科學的跨學科性 23

2.1 新興應用領域 23

2.1.1 自然科學 24

2.1.2 社會科學 25

2.1.3 工程學科 26

2.1.4 人文學科 26

2.2 數據科學的發展前沿 27

2.3 跨學科合作與聯盟構建 28

第3章 數據科學倫理框架 29

3.1 職業守與倫理規範 29

3.2 貝爾蒙委員會 30

3.3 貝爾蒙原則在數據科學中的

應用 31

小結 33

第二分 數據科學的應用

第4章 數據科學六大應用領域 36

4.1 拼寫校正 36

4.2 語音識別 38

4.3 音樂推薦 40

4.4 蛋白質折疊 41

4.5 醫療記錄 43

4.6 美國新冠疫情死亡率預測 45

第5章 分析準則 47

5.1 拼寫校正技術分析 48

5.2 語音識別技術分析 49

5.3 音樂推薦算法分析 50

5.4 蛋白質折疊技術分析 52

5.5 醫療記錄分析 53

5.6 美國新冠疫情死亡率預測分析 54

5.7 分析準則總結 55

第6章 應用分析準則 56

6.1 數據科學在交通與地圖中的應用 56

6.2 數據科學在網絡與娛樂中的應用 59

6.3 數據科學在醫學與公共衛生中的

應用 63

6.4 數據科學在自然科學中的應用 66

6.5 數據科學在金融服務業中的應用 67

6.6 數據科學在社會、政治與政府決策

中的應用 70

第7章 基於原則主義的倫理決策

框架 74

7.1 刑事量刑與假釋決策 74

7.2 個性化新聞推薦 75

7.3 疫苗分配化策略 76

7.4 人員流動數據報告 77

7.5 財產險/意外傷害險的承/

定 77

小結 79

第三分 數據科學應用的挑戰

第8章 可處理的數據 82

8.1 數據生成與收集 82

8.2 數據處理 83

8.3 數據存儲 84

8.4 數據質量 85

8.5 對用戶生成數據的合理使用 87

第9章 模型的構建與署 88

9.1 理論限制 88

9.2 歸納偏置 90

9.3 實際應用中的考量因素 93

第10章 可靠性 95

10.1 隱私 95

10.1.1 隱私權與使用權 96

10.1.2 平衡企業、個人和政府的

考量 99

10.1.3 隱私護技術 101

10.1.4 位置數據 105

10.1.5 隱私的意外影響 106

10.2  107

10.3 抗濫用性 110

10.4 韌性 113

第11章 可理解性 117

11.1 可解釋性、可闡述性與

可審計性 117

11.2 因果關系 120

11.2.1 實驗設計 123

11.2.2 因果推斷中的變量選擇 127

11.3 科學應用中的可覆現性 128

11.4 數據科學成果的傳播 130

11.4.1 實例 132

11.4.2 的作用 133

11.4.3 新聞工作者的作用 135

11.4.4 信息消費者的作用 137

第12章 設定正確的目標 143

12.1 目標的清晰度 144

12.2 平衡各方利益 146

12.3 公平 147

12.4 對個人的關註 149

12.4.1 個性化或控 149

12.4.2 過濾泡沫 152

12.4.3 個人隱私問題 153

12.4.4 數據科學對人類的影響 153

12.5 透明度 154

12.6 目標回顧 155

第13章 容忍失敗 157

13.1 不確定性的度量 157

13.2 風險 158

13.3 責任 159

第14章 倫理、法律和社會挑戰 162

14.1 法律問題 162

14.1.1 法律挑戰—政府視角 162

14.1.2 法律挑戰—應用數據

科學 164

14.2 經濟影響 165

14.2.1 規模效應 165

14.2.2 對個人的經濟影響 166

14.2.3 化的影響 167

14.3 行為倫理 168

14.3.1 激勵:組織激勵和個人

激勵 168

14.3.2 治理:在組織結構圖中

定位倫理 169

14.3.3 從原則到政策 170

14.3.4 確倫理考量的挑戰

範例 171

小結 173

第四分 解決問題

第15章 社會問題 176

15.1 關註點的示例 176

15.2 建議的視角 179

第16章 教育與智能化探討 180

16.1 課程中增加更多的數據科學內容 180

16.1.1 中小學教育 180

16.1.2 高等教育 181

16.2 利用更多數據科學和技術

教育 182

16.3 詞匯與相關定義 183

第17章 監管 185

17.1 法律上的監管規定 185

17.1.1 規模的勢 188

17.1.2 規模的劣勢 189

17.1.3 前景 189

17.2 其他指導框架 190

第18章 研究與開發 193

第19章 質量障和倫理管理 196

19.1 質量障與人文關懷 196

19.2 倫理、業知識和組織 197

小結 199

第20章 總結與思考 200

20.1 數據科學—一個完整的領域 200

20.2 數據科學—機遇與挑戰 200

20.3 理解和應用分析準則 201

20.4 倫理考量 201

20.5 解決問題 202

20.6 作者的思考 202

20.7 後的思考 208

附錄 第四分建議總結 210

參考文獻 211