前言
第1章 机器学
本书使用的库
用pip安装库
用conda安装库
第2章 机器学概览
第3章 数据分类工作流:泰坦尼克号数据集
项目布局建议
导入
提出问题
数据术语
获取数据
清洗数据
创建特征
数据采样
数据r/> 规范数据
重构
基准模型
不同算法族
模型堆叠
建模
评估模型
优化模型
混淆矩阵
ROC曲线
学
部署模型
第4章 数据缺失
检查数据缺失情况
删除缺数据的行或列
r/> 添加标识列
第5章 清洗数据
处理列名
替换缺失值
第6章 探索数据
数据大小
计
直方图
散点图
Joint Plot图
Pair Grid图
箱形图和小提琴图
比较两个序数型特征
相关性
RadViz图
行坐标图
第7章 预处理数据
标准化
调整取值范围
虚拟变量
标签编码
频数编码
从字符串抽取类别型数据
类别型数据的其他编码方法
日期特征的法
添加col_na特征
特征工程
第8章 特征选择
共线列
套索回归
递归特征消除
互信息
主成分分析
特征重要性
第9章 类别衡
采用不同度量标准
树模型和集成方法
惩罚模型
对小众类别上采样
生成小众数据
对大众类别下采样
先上采样,再下采样
第10章 分类
对数概率回归
朴素贝叶斯
支持向量机
邻
决策树
随机森林
XGBoor/> LightGBM
TPOT
第11章 模型选择
验证曲线
学
第12章 度量标准和分类评估
混淆矩阵
度量标准
准确率
召回率
精准率
fl值
分类报告
ROC曲线
精准率-召回率曲线
累积增益图
lift曲线
类衡
类别预测错误
判别阈值
第13章 解释模型
回归系数
特征重要性
LIM
解释树模型
部分依赖图
替代模型
Shapley值
第14章 回归
基准模型
线性回归
支持向量机
邻
决策树
随机森林
XGBoost回归
LightGBM回归
第15章 度量标准和回归模型的评估
度量标准
残差图
异方差性
残差正态性
预测误差图
第16章 解释回归模型
Shapley值
第17章 降维技术
PCA方法
UMAP方法
t-SNE方法
PHATE方法
第18章 聚类
k-means算法
层次聚类
理解簇
第19章 流水线
分类流水线
回归流水线
PCA流水线