无监督学习

机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。
优点:

  • 算法不受监督信息(偏见)的约束,可能考虑到新的信息
  • 不需要标签数据,极大程度扩大数据样本

主要应用
聚类分析、关联规则、维度缩减。应用最广的是聚类分析(clustering)

聚类分析

聚类分析又称为群分析,根据对象某些属性的相似度,将其自动化分为不同的类别。

使用场景

  • 商业领取的客户划分,例如:分为有价值的客户,普通用户,没有价值用户等。
  • 生物领域基因的聚类。
  • 新闻关联

算法

K-Means聚类算法

  • 根据数据与中心点距离划分类别
  • 基于类别数据更新中心点
  • 重复过程直到收敛

特点

  • 实现简单,收敛快
  • 需要指定类别数量

Mean-shift算法

均值漂移聚类(Meanshift)

  • 在中心点一定区域检索数据点
  • 更新中心
  • 重复流程到中心点稳定

特点

  • 自动发现类别数量,不需要人工选择
  • 需要选择区域半径

DBSCAN算法

基于密度的空间聚类算法

  • 基于区域点密度筛选有效数据
  • 基于有效数据想周边扩张,知道没有新点加入

特点

  • 过滤噪音数据
  • 不需要人为选择类别数量
  • 数据密度不同时影响结果