机器学习复习
机器学习review
评价指标
高斯分布也就是正态分布。
概率与学习-KNN
再次强调距离度量函数。
k-NN是典型的“懒惰学习”(lazy learning),训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理。
SVM、CNN等是“急切学习”(eager learning),在训练阶段就对样本进行学习处理的方法,这类方法尝试在训练期间构造一个通用的,与输入无关的目标函数。
无监督学习
聚类的“好坏”不存在绝对标准!
聚类(簇、类):数据对象的集合。在同一个类中,数据对象是相似的,不同类之间的数据对象是不相似的。
聚类的依据
将整个数据集中每个样本的特征向量看成是分布在特征空间中的一些点,点与点之间的距离即可作为相似性度量依据。
聚类分析是根据不同样本之间的差异,根据距离函数的规律(大小)进行分类(聚类)的。
一个好的聚类算法:聚类内部高相似性;聚类之间低相似性。簇内相似度高,簇间相似度低。
聚类方法
计算量有点大,感觉不太会考计算吧
基于试探的聚类搜索算法
按最近邻规则的简单试探法
给定N个待分类的数据样本{x1,x2,...,xN},要求按距离阈值T,将它们分类到聚类中心z1,z2,...
最大最小距离算法
基本思想:以试探类间欧式距离为最大作为预选出聚类中心的条件。
系统聚类法
基本思想:将数据样本按距离准则逐步分类,类别由多到少,直到获得合适的分类要求为止。
动态聚类法
聚类评价
可考虑用以下几个指标来评价聚类效果
- 聚类中心之间的距离:距离值大,通常可考虑分为不同类
- 聚类域中的样本数目:样本数目少且聚类中心距离远,可考虑是否为噪声
- 聚类域内样本的距离方差:方差过大的样本可考虑是否属于这一类
聚类目前还没有一种通用的准则,往往需要根据实际应用来选择合适的方法。
树学习
主要关注ID3决策树算法,因为书上也有ID3的例题
概念学习
归纳推理:已知前件为真,后件未必为真。
符号(概念)学习是一类归纳推理。
定义:给定样例集合,以及每个样例是否属于某个概念,自动地推断出该概念的一般定义。
Find-S和候选消除算法
ID3
对决策树来说,最好的特征就是选择目前对分类能提供最大信息量的那个,即具有最大熵的特征。基于此特征分类后,我们再重新计算每一个特征的信息熵,然后再选择具有最大熵的特征。
C4.5
CART
集成学习
多个分类器集成在一起,以提高分类准确率。由训练数据构建基分类器,然后根据预测结果进行投票。集成学习本身不是一种分类器,而是分类器结合方法。通常集成分类器性能会好于单个分类器。
Bias-Variance tradeoff问题
偏差-方差平衡
Bagging基本原理
优点:
- 并行式集成学习,降低分类器方差,改善泛化。
缺点:
随机森林
随机森林的特点
- 差异性:每棵树是不同的;每棵树使用的特征是不同的;
- 缓解维度灾难:因为每棵树都没有使用全部的特征,特征空间被减小了;
- 可并行化:因为每棵树使用不同的数据、不同的特征,可以有效采用并行化技术;
- 训练-测试划分:训练和测试的划分不是必须的,因为构建每棵决策树时,总有30%的数据是没有采样的;
- 稳定性:通过多数投票或者平均,结果较为稳定。
Boosting基本原理
概率与学习
带约束的数学优化问题
不带约束的数学优化问题(重点)
牛顿法
最小二乘问题
应该是会给公式,考试就是算出答案,ppt也没怎么讲。
支持向量机
线性支持向量机
非线性支持向量机
神经元和感知机
MP神经元基本结构
激活函数
感知机
由一组MP神经元组成的集合。最简单形式的前馈式人工神经网络。
例子
线性可分性
感知器所做的事情是尝试寻找一条直线(二维空间中是一条直线,三维空间中是一个平面,在更高维度的空间中是一个超平面),在直线的一边神经元都激活,而在另一边神经元都不激活。这条直线被称作决策边界,或者是判别函数。
神经网络
多层感知机MLP
反向传播(重要)
误差反传要素:
- 误差定义
- Delta规则
- 激活函数
- 反传学习的推导(链式法则)
一个例子的链接,不过不全,没有偏置和激活函数。
https://zhuanlan.zhihu.com/p/40378224
演化学习
遗传算法
例子
遗传算子
后代种群的演化
维度约简
线性判别分析LDA
主成分分析PCA
无监督的特征降维方法
强化学习
MDP
马尔可夫决策过程
定理:必然存在着一个确定性的最优策略。
动态规划
Bellman等式(重要)
强化学习
- 标题: 机器学习复习
- 作者: Kiyotaka Wang
- 创建于 : 2024-01-11 09:10:03
- 更新于 : 2024-01-15 13:03:38
- 链接: https://hmwang2002.github.io/2024/01/11/ji-qi-xue-xi-fu-xi/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。