Pandas 數據分析實戰 Pandas in Action
Boris Paskhaver 殷海英 譯
- 出版商: 清華大學
- 出版日期: 2022-08-01
- 定價: $768
- 售價: 8.5 折 $653
- 語言: 簡體中文
- ISBN: 7302612714
- ISBN-13: 9787302612711
-
相關分類:
Data Science
- 此書翻譯自: Pandas in Action
立即出貨
買這商品的人也買了...
-
$650$507 -
$648$616 -
$500$390 -
$480$408 -
$380$285 -
$834$792 -
$454Python 機器學習系統構建 (原書第3版)
-
$534$507 -
$690$587 -
$620$490 -
$620$409 -
$580$458 -
$700$553 -
$580$458 -
$580$458 -
$600$468 -
$560$476 -
$620$527 -
$620$490 -
$648$616 -
$400$316 -
$474$450 -
$720$569 -
$720$475 -
$912圖神經網絡:基礎、前沿與應用
相關主題
商品描述
主要內容 ●對數據集進行組織、 分組、合並、分割以及連接 ●發現基於文本和時間的數據的趨勢 ●對數據進行排序、過濾、樞軸化、優化,並得出結論 ●應用聚合操作
目錄大綱
目 錄
第Ⅰ部分 Pandas核心基礎
第1章 Pandas概述 2
1.1 21世紀的數據 2
1.2 Pandas介紹 3
1.2.1 Pandas與圖形電子表格應用程序 4
1.2.2 Pandas與它的競爭對手 5
1.3 Pandas之旅 6
1.3.1 導入數據集 6
1.3.2 操作DataFrame 8
1.3.3 計算Series中的值 11
1.3.4 根據一個或多個條件篩選列 12
1.3.5 對數據分組 14
1.4 本章小結 17
第2章 Series對象 18
2.1 Series概述 18
2.1.1 類和實例 19
2.1.2 用值填充Series對象 19
2.1.3 自定義Series索引 21
2.1.4 創建有缺失值的Series 24
2.2 基於其他Python對象創建Series 24
2.3 Series屬性 26
2.4 檢索第一行和最後一行 28
2.5 數學運算 30
2.5.1 統計操作 30
2.5.2 算術運算 36
2.5.3 廣播 38
2.6 將Series傳遞給Python的
內置函數 40
2.7 代碼挑戰 42
2.7.1 問題描述 42
2.7.2 解決方案 42
2.8 本章小結 44
第3章 Series方法 46
3.1 使用read_csv函數導入數據集 46
3.2 對Series進行排序 51
3.2.1 使用sort_values方法按值排序 51
3.2.2 使用sort_index方法按索引
排序 53
3.2.3 使用nsmallest和nlargest方法
檢索最小值和最大值 55
3.3 使用inplace參數替換原有Series 56
3.4 使用value_counts方法計算值的
個數 57
3.5 使用apply方法對每個Series值
調用一個函數 62
3.6 代碼挑戰 65
3.6.1 問題描述 65
3.6.2 解決方案 65
3.7 本章小結 67
第4章 DataFrame對象 68
4.1 DataFrame概述 69
4.1.1 通過字典創建DataFrame 69
4.1.2 通過NumPy ndarray創建
DataFrame 70
4.2 Series和DataFrame的相似之處 72
4.2.1 使用read_csv函數導入
DataFrame 72
4.2.2 Series和DataFrame的共享與
專有屬性 73
4.2.3 Series和DataFrame的共有方法 75
4.3 對DataFrame進行排序 78
4.3.1 按照單列進行排序 78
4.3.2 按照多列進行排序 80
4.4 按照索引進行排序 81
4.4.1 按照行索引進行排序 82
4.4.2 按照列索引進行排序 82
4.5 設置新的索引 83
4.6 從DataFrame中選擇列 84
4.6.1 從DataFrame中選擇單列 84
4.6.2 從DataFrame中選擇多列 85
4.7 從DataFrame中選擇行 86
4.7.1 使用索引標簽提取行 87
4.7.2 按索引位置提取行 89
4.7.3 從特定列中提取值 90
4.8 從Series中提取值 93
4.9 對行或列進行重命名 93
4.10 重置索引 94
4.11 代碼挑戰 96
4.11.1 問題描述 96
4.11.2 解決方案 96
4.12 本章小結 99
第5章 對DataFrame進行過濾 100
5.1 優化數據集以提高內存
使用效率 100
5.2 按單個條件過濾 106
5.3 按多個條件過濾 109
5.3.1 AND條件 109
5.3.2 OR條件 110
5.3.3 ~條件 111
5.3.4 布爾型方法 112
5.4 按條件過濾 112
5.4.1 isin方法 113
5.4.2 between方法 113
5.4.3 isnull和notnull方法 115
5.4.4 處理空值 117
5.5 處理重復值 119
5.5.1 duplicated方法 119
5.5.2 drop_duplicates方法 121
5.6 代碼挑戰 123
5.6.1 問題描述 123
5.6.2 解決方案 124
5.7 本章小結 127
第Ⅱ部分 應用Pandas
第6章 處理文本數據 130
6.1 字母的大小寫和空格 130
6.2 字符串切片 134
6.3 字符串切片和字符替換 135
6.4 布爾型方法 137
6.5 拆分字符串 139
6.6 代碼挑戰 143
6.6.1 問題描述 143
6.6.2 解決方案 143
6.7 關於正則表達式的說明 145
6.8 本章小結 146
第7章 多級索引DataFrame 147
7.1 MultiIndex對象 148
7.2 MultiIndex DataFrame 151
7.3 對MultiIndex進行排序 156
7.4 通過MultiIndex提取列或行 159
7.4.1 提取一列或多列 160
7.4.2 使用loc提取一行或多行 162
7.4.3 使用iloc提取一行或多行 166
7.5 交叉選擇 168
7.6 索引操作 169
7.6.1 重置索引 169
7.6.2 設置索引 172
7.7 代碼挑戰 174
7.7.1 問題描述 174
7.7.2 解決方案 175
7.8 本章小結 177
第8章 數據集的重塑和透視 178
8.1 寬數據和窄數據 178
8.2 由DataFrame創建數據透視表 180
8.2.1 pivot_table方法 180
8.2.2 數據透視表的其他選項 184
8.3 對索引級別進行堆疊和取消
堆疊 186
8.4 融合數據集 188
8.5 展開值列表 191
8.6 代碼挑戰 193
8.6.1 問題描述 193
8.6.2 解決方案 194
8.7 本章小結 197
第9章 GroupBy對象 198
9.1 從頭開始創建GroupBy對象 198
9.2 從數據集中創建GroupBy對象 200
9.3 GroupBy對象的屬性和方法 202
9.4 聚合操作 206
9.5 將自定義操作應用於所有組 209
9.6 按多列分組 210
9.7 代碼挑戰 211
9.7.1 問題描述 211
9.7.2 解決方案 212
9.8 本章小結 214
第10章 合並與連接 215
10.1 本章使用的數據集 216
10.2 連接數據集 218
10.3 連接後的DataFrame中的
缺失值 220
10.4 左連接 222
10.5 內連接 223
10.6 外連接 225
10.7 合並索引標簽 228
10.8 代碼挑戰 229
10.8.1 問題描述 231
10.8.2 解決方案 231
10.9 本章小結 233
第11章 處理日期和時間 235
11.1 引入Timestamp對象 235
11.1.1 Python如何處理日期時間型
數據 235
11.1.2 Pandas 如何處理日期時間型
數據 238
11.2 在DatetimeIndex中存儲多個
時間戳 240
11.3 將列或索引值轉換為日期
時間類型數據 242
11.4 使用DatetimeProperties對象 243
11.5 使用持續時間進行加減 247
11.6 日期偏移 249
11.7 Timedelta對象 251
11.8 代碼挑戰 255
11.8.1 問題描述 256
11.8.2 解決方案 257
11.9 本章小結 260
第12章 導入和導出 261
12.1 讀取和寫入JSON文件 262
12.1.1 將JSON文件加載到
DataFrame中 263
12.1.2 將DataFrame導出到
JSON文件 269
12.2 讀取和寫入CSV文件 270
12.3 讀取和寫入Excel工作簿 272
12.3.1 在Anaconda環境中安裝
xlrd和openpyxl庫 272
12.3.2 導入Excel工作簿 272
12.3.3 導出Excel工作簿 275
12.4 代碼挑戰 277
12.4.1 問題描述 278
12.4.2 解決方案 278
12.5 本章小結 279
第13章 配置Pandas 280
13.1 獲取和設置Pandas選項 280
13.2 精度 284
13.3 列的最大寬度 285
13.4 截斷閾值 286
13.5 上下文選項 286
13.6 本章小結 287
第14章 可視化 289
14.1 安裝Matplotlib 289
14.2 折線圖 290
14.3 條形圖 294
14.4 餅圖 296
14.5 本章小結 297
附錄A 安裝及配置 298
附錄B Python速成課程 314
附錄C NumPy速成教程 346
附錄D 用Faker生成模擬數據 353
附錄E 正則表達式 359