一、
概述
1、 概念与术语(人工智能、数据挖掘、机器学习…)
2、 数据挖掘的对象
3、 数据挖掘的关键技术
4、 知识的表达
二、
数据预处理
1、 变量类型
2、 数据清理
3、 数据集成和变换
4、 数据仓库与数据方(OLAP)
5、 规范化
6、 数据压缩(DCT、小波变换)
三、
降维与维度归约
1、 无标签时:PCA
2、 有标签时:Fisher线性判别(第一个“LDA”)
3、 知识的约简
4、 决策表的约简
5、 粗糙集
四、
回归与时序分析
1、 线性回归
2、 非线性回归
3、 logistics回归
4、 平稳性、截尾与拖尾
5、 ARIMA
五、
决策树
1、 分类和预测
2、 熵减过程与贪心法
3、 ID3
4、 C4.5
5、 其他改进方法
6、 决策树剪枝
7、 归纳学习
六、
聚类
1、 监督学习与无监督学习
2、 K-means与k-medoids
3、 层次的方法
4、 基于密度的方法
5、 基于网格的方法
6、 孤立点分析
7、 案例:鸢尾花数据的聚类
七、
关联规则与序列挖掘
1、 频繁项集
2、 支持度与置信度
3、 Apriori性质
4、 连接与剪枝
5、 总有“啤酒与尿布”以外的案例吧?
6、 序列挖掘
八、
惰性学习
1、 迫切学习与惰性学习
2、 K-NN分类算法
3、 基于案例的推理
九、
机器学习中性能评价指标
1、 准确率;精确率、召回率;F1
2、 真阳性率、假阳性率
3、 混淆矩阵
4、 ROC与AUC
5、 对数损失
6、 Kappa系数
7、 回归:平均绝对误差、平均平方误差
8、 聚类:兰德指数、互信息
十、
朴素贝叶斯与贝叶斯网络
1、 概率论基础:条件概率、联合概率、分布、共轭先验。
2、 “概率派”与“贝叶斯派”
3、 朴素贝叶斯模型
4、 贝叶斯信念网络
5、 应用案例介绍
十一、 极大似然估计与EM算法
1、 极大似然估计
2、 半监督学习
3、 EM算法
4、 EM算法应用:贝叶斯线性回归
十二、 支持向量机
1、 统计学习问题
2、 结构风险最小归纳原理
3、 支持向量机
4、 核函数
5、 多分类的支持向量机
6、 用于连续值预测的支持向量机
7、 小案例:“拆蚊香”
十三、 BP神经网络
1、 人工神经元及感知机模型
2、 前向神经网络
3、 sigmoid
4、 径向基函数神经网络
5、 误差反向传播
十四、 其他神经网络
1、 hopfield网络
2、 自组织特征映射神经网络
3、 受限布尔兹曼机
4、 神经网络的应用案例介绍
十五、 机器学习中的最优化方法
1、 参数学习方法
2、 损失函数(或目标函数)
3、 梯度下降
4、 随机梯度下降
5、 牛顿法
6、 拟牛顿法
7、 蛮力法也算吗?
十六、 遗传算法
1、 交叉、选择、变异
2、 基本算法
3、 神经网络与遗传算法结合的案例:井字棋
十七、 隐马尔科夫模型
1、 马尔科夫过程
2、 隐马尔科夫模型
3、 三个基本问题(评估、解码、学习)
4、 前向-后向算法
5、 Viterbi算法
6、 Baum-Welch算法
十八、 条件随机场
1、 最大熵理论
2、 无向图模型与MRF
3、 CRF与MRF的关系
4、 最大团与势函数
5、 CRF的三个问题(概率计算、参数学习、预测)
6、 CRF进行词性标注的案例
十九、 文本挖掘
1、文本分析功能
2、文本特征的提取
4、文本分类
5、文本聚类
6、文本摘要
二十、 Monte-Carlo法
1、 扔飞镖计算圆周率
2、 Monte-Carlo积分
3、 接受-拒绝采样
4、 重要性采样
5、 MCMC方法的基本思路
6、 Metropolis-Hastings算法
7、 Gibbs采样
二十一、
从LSA到LDA
1、 LSA(潜在语义分析)
2、 pLSA
3、 第二个“LDA”(潜在狄利克雷分布)
二十二、
网页排序与商品推荐
1、 page rank
2、 基于人口统计学的推荐
3、 基于内容的推荐
4、 协同过滤
5、 基于关联规则推荐
6、 组合推荐
二十三、
组合的模型
1、 bagging
2、 co-training
3、 adaboost
4、 随机森林
5、 GBDT
二十四、
强化学习
1、 MDPs中的agent的属性
2、 exploration and exploitation
3、 Bellman期望方程
4、 最优策略
5、 策略迭代与价值迭代
6、 Q学习算法
7、 DQN
二十五、
综合案例
1、 如何教电脑玩“flappy
bird”
2、 待定