猪猪のAI笔记
  • README
  • 读书笔记
    • 1.特征工程
      • 1.1.数值空间
      • 1.2.文本数据
      • 1.3.词袋到TF-IDF
      • 1.4.分类变量
      • 1.5.数据降维:PCA
    • 2.自然语言
      • 2.1.处理文本的机器
      • 2.2.词频背后
      • 2.3.神经网络基础
      • 2.4.Word2Vec,词向量推理
      • 2.5.神经网络深入
    • 3.神经网络
      • 3.1.绪论
      • 3.2.机器学习
      • 3.3.线性模型
      • 3.4.前馈神经网络
      • 3.5.卷积神经网络
      • 3.6.循环神经网络
      • 3.7.网络优化
      • 3.8.注意力机制/外部记忆
      • 3.9.无监督学习
    • 4.XGboost
      • 4.1.基础和初探
  • 课程系列
    • CDA III
      • 1.数据挖掘
      • 2.特征工程
      • 3.自然语言
      • 4.神经网络
      • 5.支持向量机
      • 6.集成学习
      • 7.朴素贝叶斯
      • 8.决策树
      • 9.聚类
      • 10.模型评估
      • 11.关联规则
      • 12.计算题知识点
      • 13.计算题分析
    • 题库分析
      • 深度学习
      • 机器学习-01
      • 机器学习-02
      • 机器学习-03
      • 机器学习-04
      • 机器学习-05
      • 机器学习-06
      • 机器学习-07
      • 机器学习-08
      • 机器学习-09
      • 机器学习-10
      • Level III模拟(一)
      • Level III模拟(二)
    • 知识点
      • Transformer模型
      • ELMO,BERT,GPT
      • 正则化之L1,L2
      • 距离详解
    • K-RPA
      • RPA行业展望
      • 命名规范和开发原则
      • 脚本向导编程
      • K-RPA异常处理
      • K-RPA文件/目录操作
      • (高)K-RPA环境
      • (高)K-RPA命名规范和开发原则
      • (高)K-RPA脚本向导编程
      • (实)01:安装K-RPA
      • (实)02:脚本向导编程
      • (实)03:完整案例
      • (实)04:文件和集成
由 GitBook 提供支持
在本页
  • 1.基本概念
  • 1.1. 相似度衡量
  • 2. 算法分类
  • 2.1. 层次聚类算法
  • 2.2. 划分聚类算法
  • 2.3. 模糊聚类
  • 2.4. 密度聚类
  • 3. 群数判断

这有帮助吗?

  1. 课程系列
  2. CDA III

9.聚类

1.基本概念

    聚类分类大纲

  • 层次聚类

    • 单一链结法

    • 完全链结法

    • 平均链结法

    • 中心法

    • Ward's法

  • 划分聚类法

    • K-Means法

    • K-Medoids法

    • Kohonen Self-Organizing Maps(SOM)

    • 两步法

  • 模糊聚类

    • EM算法

  • 密度聚类

    • 密度聚类算法(DBSCAN)

  • 群数的判断

    • R-Squared(R2)

    • Semi-Partial R-Squared

    • Root-Mean-Square Standard Deviation(RMSSTD)

    • Silhouette Coefficient(轮廓系数)

    没有目标变量(非监督),将相似的内容聚合在一起,其中心思想是:同一群内成员的相似性要越高越好,而不同群间成员的相异性则要越高越好。

虽然没有明确的目标变量,但实际操作中你需要有一个分类的目标维度,如按XX分类:颜色、大小、透明度、纹理等。

    聚类重点

  • 如何使用数字来表示成员之间的相似性(相异性)?

  • 如何根据这些相似性将类似的成员分在同一群?

  • 所有成员分群完后,对每一群的特征应如何描述?

1.1. 相似度衡量

    Jaccard(杰卡德系数):

    Simple Matching:

    距离计算

  • 曼哈顿距离(直角距离)

  • 欧式距离

2. 算法分类

    分类维度:

  • Exclusive / Non-Exclusive

    • Exclusive:排他性聚类法(一个数据只属于一个群),如K-Means。

    • Non-Exclusive:非排他性聚类法(一个数据可以属于多个群),如EM。

    排他性再分类

  • Hierarchical(层次聚类法):

    • Single Linkage, Complete Linkage

    • Average Linkage, Controid

    • Ward's

  • Partioning(划分聚类法):

    • K-Means

    • K-Medoids(PAM)

    • Kohonen Self-Organizing Maps(SOM)

    • Two Step

    非排他性(模糊聚类EM算法)     密度聚类算法

2.1. 层次聚类算法

2.1.1. Single Link

  • 最小值

  • d(2,3) = 1:先找距离最短的。

  • d(1,4) = 2:然后找距离次短的。

  • d(2,5) = 3:然后找距离比较短的,所以将5加入到2,3。

  • d(4,5) = 4:最后,最终构成上图中的树形图。

2.1.2. Complete Link

  • 最大值(要计算两两之间的完全图,都存在链接)

  • d(2,3) = 1:先找距离最短的。

  • d(1,4) = 2:然后找距离次短的。

  • d(2,5) = 3:5想加入2,3,由于没有5,3,所以暂时不加入。

  • d(4,5) = 4:5想加入1,4,由于没有1,4,所以暂时不加入。

  • d(2,4) = 5:两个群由于没有1,2、1,3,所以不加入。

  • d(1,2) = 6:由于没有1,3,所以不加入。

  • d(1,5) = 7:由于出现了完全图,所以5加入。

2.1.3. Average Linkage

  • 平均值

2.1.4. Centroid Method

  • 群中心

2.1.5. Ward's

  • 直接使用上述评估指标,运算更复杂(略)。

通常Ward's最好,Linkage最差,而划分聚类又比层次聚类更好。

两步法:

  • 先将数据切分成许多小群。

  • 然后使用层次聚类,决定群数。

群数判断

    如果使用阶层聚类分析法,集结完成后,就需要判断应分成几群合适,一般使用陡坡图来判断。

2.2. 划分聚类算法

  • 效果更好,事先指定需要划分成几个群。

2.2.1. K-Means

    K表示最终需要聚类的群数量,每次运行结果可能不一样。

  • 优点

    • 计算速度快

  • 缺点

    • 对离群值十分敏感

    • 并不是一个最优方案(不一定能找到最佳解)

    • 只能处理数值型数据

    初始中心点的选取会影响结果:

  • 随机选取K个样本点作初始类群中心点

  • (更好的)选择第一个样本点,其次选择第一个忠县距离超过标准的下一个样本点,然后选和第1、2个群中心距离更远的第三个群中心。

2.2.2. Algorithem PAM

  • 优点

    • 可以得到全局最佳解

    • 可以处理非数值型数据

  • 缺点

    • 计算速度慢

    将K-Means的虚拟群中心改成真实样本点,并且求SS值找到最小的。

2.2.3. SOM

    (神经网络)自我组织映射法。

2.3. 模糊聚类

  • 排他性:硬聚类,K-Means

  • 非排他性:软聚类,EM

2.3.1. EM

估计时使用高斯分布估计属于每个群的概率值,可以将K-Means理解成一种特殊的EM算法。

2.4. 密度聚类

2.4.1. DBSCAN

    根据数据的形状进行聚类,可以找到任何形状的聚类,全称:Density-Based Spatial Clustering of Applications with Noise。

  • 可以处理噪音和离群值

  • 所有的离群值都会直接被标识出来

  • 通常做异常侦测

  • 需要设置的参数:

    • Eps:半径

    • MinPts:半径内的样本点的数量

    三种点:

  • Core Point:核心点

  • Border Point:边界点

  • Outlier Point:离群点(噪音)

  • 优点:

    • 不需要事先指定集群数

    • 可轻松处理噪声,不受离群值影响

    • 没有严格形状,可以正确容纳许多数据点

  • 缺点

    • 无法使用不同密度的数据集

    • 对聚类超参数敏感:Eps和MinPts

    • 如果数据过于稀疏,则表现不佳

    • 密度测量(可达/相连)可能受到抽样的影响

3. 群数判断

  • Sum of Square, SS

  • Semi-Partial R-Squared(SS的拓展):群和群之间SS的增加程度,如果突然增加,则表示集结过程就应该停止。

前三个需要人为参与。

    下图为轮廓系数图解:

上一页8.决策树下一页10.模型评估

最后更新于3年前

这有帮助吗?

d(i,j)=r+sq+r+sd(i,j) = \frac{r + s}{q + r + s}d(i,j)=q+r+sr+s​

d(i,j)=r+sq+r+s+td(i,j) = \frac{r + s}{q + r + s + t}d(i,j)=q+r+s+tr+s​

SS=∑i=1p∑j=1m(xij−xiˉ)2SS = \sum\limits_{i=1}^p \sum\limits_{j=1}^m ( x_{ij} - \bar{x_i})^2SS=i=1∑p​j=1∑m​(xij​−xi​ˉ​)2

R-Sqaured, R2(SS的变型):R2=SSBSSTR^2 = \frac{SS_B}{SS_T}R2=SST​SSB​​,距离是否有突然间缩小。

Silhouette Coefficient(轮廓系数):s(i)=b(i)−a(i)max⁡{a(i),b(i)},−1≤s(i)≤1s(i) = \frac{b(i) - a(i)}{\max{\{a(i),b(i)\}}}, -1 \le s(i) \le 1s(i)=max{a(i),b(i)}b(i)−a(i)​,−1≤s(i)≤1