无监督学习
机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。
优点:
- 算法不受监督信息(偏见)的约束,可能考虑到新的信息
- 不需要标签数据,极大程度扩大数据样本
主要应用
聚类分析、关联规则、维度缩减。应用最广的是聚类分析(clustering)
聚类分析
聚类分析又称为群分析,根据对象某些属性的相似度,将其自动化分为不同的类别。
使用场景
- 商业领取的客户划分,例如:分为有价值的客户,普通用户,没有价值用户等。
- 生物领域基因的聚类。
- 新闻关联
算法
K-Means聚类算法
- 根据数据与中心点距离划分类别
- 基于类别数据更新中心点
- 重复过程直到收敛
特点
- 实现简单,收敛快
- 需要指定类别数量
Mean-shift算法
均值漂移聚类(Meanshift)
- 在中心点一定区域检索数据点
- 更新中心
- 重复流程到中心点稳定
特点
- 自动发现类别数量,不需要人工选择
- 需要选择区域半径
DBSCAN算法
基于密度的空间聚类算法
- 基于区域点密度筛选有效数据
- 基于有效数据想周边扩张,知道没有新点加入
特点
- 过滤噪音数据
- 不需要人为选择类别数量
- 数据密度不同时影响结果