模型优化
数据分离与混淆矩阵
过拟合和欠拟合
概念:模型不合适,导致其无法对数据实现有效预测。
Read on →决策树
一种对实例进行分类的树形结构,通过多层判断区分目标所属类别。
本质:通过多层判断,从训练数据集中归纳出一组分类规则。
均值漂移聚类(Mean-shift)
均值漂移算法:一种基于密度梯度上升的聚类算法(沿着密度上升方向寻找聚类中心点)
Read on →KNN(K近邻分类)算法(监督学习)
Read on →最简单的机器学习算法之一 给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
KMeans(K均值聚类)算法
K-均值算法:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,是聚类算法中最为基础但也最为重要的算法。
Read on →无监督学习
机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。
优点:
- 算法不受监督信息(偏见)的约束,可能考虑到新的信息
- 不需要标签数据,极大程度扩大数据样本
主要应用
聚类分析、关联规则、维度缩减。应用最广的是聚类分析(clustering)