小册描述
目录
- 4.1 分类变量
- 4.1.1 One-Hot 编码(虚拟变量)
- 4.1.2 数字可以编码分类变量
- 4.2 分箱、离散化、线性模型与树
- 4.3 交互特征与多项式特征
- 4.4 单变量非线性变换
- 4.5 自动化特征选择
- 4.5.1 单变量统计
- 4.5.2 基于模型的特征选择
- 4.5.3 迭代特征选择
- 4.6 利用专家知识
- 5.1 交叉验证
- 5.1.1 scikit-learn 中的交叉验证
- 5.1.2 交叉验证的优点
- 5.1.3 分层k 折交叉验证和其他策略
- 5.2 网格搜索
- 5.2.1 简单网格搜索
- 5.2.2 参数过拟合的风险与验证集
- 5.2.3 带交叉验证的网格搜索
- 5.3 评估指标与评分
- 5.3.1 牢记目标
- 5.3.2 二分类指标
- 5.3.3 多分类指标
- 5.3.4 回归指标
- 5.3.5 在模型选择中使用评估指标
- 6.1 用预处理进行参数选择
- 6.2 构建管道
- 6.3 在网格搜索中使用管道
- 6.4 通用的管道接口
- 6.4.1 用make_pipeline 方便地创建管道
- 6.4.2 访问步骤属性
- 6.4.3 访问网格搜索管道中的属性
- 6.5 网格搜索预处理步骤与模型参数
- 6.6 网格搜索选择使用哪个模型
- 7.1 用字符串表示的数据类型
- 7.2 示例应用:电影评论的情感分析
- 7.3 将文本数据表示为词袋
- 7.3.1 将词袋应用于玩具数据集
- 7.3.2 将词袋应用于电影评论
- 7.4 停用词
- 7.5 用tf-idf 缩放数据
- 7.6 研究模型系数
- 7.7 多个单词的词袋(n元分词)
- 7.8 分词、词干提取与词形还原
- 7.9 主题建模与文档聚类
- 8.1 处理机器学习问题
- 8.2 从原型到生产
- 8.3 测试生产系统
- 8.4 构建你自己的估计器
- 8.5 下一步怎么走
- 8.5.1 理论
- 8.5.2 其他机器学习框架和包
- 8.5.3 排序、推荐系统与其他学习类型
- 8.5.4 概率建模、推断与概率编程
- 8.5.5 神经网络
- 8.5.6 推广到更大的数据集