聚类分析

2020-11-04

【PART 1 ：DATA：2020-10-16 12:00:03】

聚类分析属于无监督学习方法，其目标是学习没有分类标记的训练样本，以揭示数据的内在性质和规律。具体来说，聚类分析要将数据集划分为若干个互不相交的子集，每个子集中的元素在某种度量之下都与本子集内的元素具有更高的相似度。用这种方法划分的子集就是“聚类”（或称为“簇”），每个聚类都代表了一个潜在的类别。

分类和聚类的区别也正在与此：分类是先确定类别再划分数据；聚类则是先划分数据再确定类别。

聚类分析本身并不是具体的算法，而是要解决的一般任务，从名称上就可以看出这项任务的两个核心问题：一是如何判定哪些样本属于同一“类”，二是怎么让同一类的样本“聚”在一起。

分类——闵可夫斯基距离

聚（聚类算法）——k均值算法、EM算法, 密度聚类（最流行的基于密度的聚类方法是利用噪声的基于密度的空间聚类）、层次聚类、原型聚类。

一、k 均值算法（k means）：

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。

二、密度聚类（DBSCAN）：

（形象来说，我们可以认为这是系统在众多样本点中随机选中一个，围绕这个被选中的样本点画一个圆，规定这个圆的半径以及圆内最少包含的样本点，如果在指定半径内有足够多的样本点在内，那么这个圆圈的圆心就转移到这个内部样本点，继续去圈附近其它的样本点，类似传销一样，继续去发展下线。等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值，就停止了。那么我们称最开始那个点为核心点，如A，停下来的那个点为边界点，如B、C，没得滚的那个点为离群点，如N）

三、k-means vs DBSCAN

四、代码

k-means 代码：

【data.txt】

2.0 4.2
2.1 5.0
2.3 3.8
1.2 6.1
3.5 4.4
3.6 3.7
3.0 6.2
2.5 5.6
1.7 3.3
0.9 6.0
0.4 4.1
7.0 10.0
8.0 9.0
8.2 8.2
9.3 7.9
7.4 7.1
6.8 8.0
8.1 9.5
8.5 10.4
7.6 8.5
8.6 7.3
7.7 8.8
1.8 10.9
1.5 9.5
1.7 8.7
1.3 9.0
2.8 9.6
2.2 9.9
2.1 10.5
2.5 9.2
3.1 10.4
3.9 9.5
3.7 10.4
2.6 8.2
2.8 9.2
2.2 9.3
3.4 8.5
8.1 1.3
8.5 2.4
8.8 3.3
9.0 1.2
10.7 2.9
7.9 3.7
7.5 2.5
8.5 0.6
10.8 1.6
9.2 0.5
6.8 2.0
8.5 3.6
10.0 1.7

【kmeans.py】

import random
from math import *
import matplotlib.pyplot as plt


# 从文件中读取数据
def read_data():
    data_points = []
    with open('data.txt', 'r') as fp:
        for line in fp:
            if line == '\n':
                continue
            data_points.append(tuple(map(float, line.split(' '))))  # 去掉空格，并将data中数据的类型转为tuple
        fp.close()
        return data_points


# 初始化聚类中心
def begin_cluster_center(data_points, k):
    center = []
    length = len(data_points)  # 长度
    rand_data = random.sample(range(0, length), k)  # 生成k个不同随机数
    for i in range(k):  # 得出k个聚类中心(随机选出)
        center.append(data_points[rand_data[i]])
    return center


# 计算最短距离（欧式距离）
def distance(a, b):
    length = len(a)
    sum = 0
    for i in range(length):
        sq = (a[i] - b[i]) ** 2
        sum += sq
    return sqrt(sum)


# 分配样本
# 按照最短距离将所有样本分配到k个聚类中心中的某一个
def assign_points(data_points, center, k):
    assignment = []
    for i in range(k):
        assignment.append([])
    for point in data_points:
        min = 10000000
        flag = -1
        for i in range(k):
            value = distance(point, center[i])  # 计算每个点到聚类中心的距离
            if value < min:
                min = value  # 记录距离的最小值
                flag = i  # 记录此时聚类中心的下标
        assignment[flag].append(point)
    return assignment


# 更新聚类中心,计算每一簇中所有点的平均值
def update_cluster_center(center, assignment, k):
    for i in range(k):  # assignment中的每一簇
        x = 0
        y = 0
        length = len(assignment[i])  # 每一簇的长度
        if length != 0:
            for j in range(length):  # 每一簇中的每个点
                x += assignment[i][j][0]  # 横坐标之和
                y += assignment[i][j][1]  # 纵坐标之和
            center[i] = (x / length, y / length)
    return center


# 计算平方误差
def getE(assignment, center):
    sum_E = 0
    for i in range(len(assignment)):
        for j in range(len(assignment[i])):
            sum_E += distance(assignment[i][j], center[i])
    return sum_E


# 计算各个聚类中心的新向量，更新距离，即每一类中每一维均值向量。
# 然后再进行分配，比较前后两个聚类中心向量是否相等，若不相等则进行循环，
# 否则终止循环，进入下一步。
def k_means(data_points, k):
    # 由于初始聚类中心是随机选择的，十分影响聚类的结果，聚类可能会出现有较大误差的现象
    # 因此如果由初始聚类中心第一次分配后有结果为空，重新选择初始聚类中心，重新再聚一遍，直到符合要求
    while 1:
        # 产生初始聚类中心
        begin_center = begin_cluster_center(data_points, k)
        # 第一次分配样本
        assignment = assign_points(data_points, begin_center, k)
        for i in range(k):
            if len(assignment[i]) == 0:  # 第一次分配之后有结果为空，说明聚类中心没选好，重新产生初始聚类中心
                continue
        break
    # 第一次的平方误差
    begin_sum_E = getE(assignment, begin_center)
    # 更新聚类中心
    end_center = update_cluster_center(begin_center, assignment, k)
    # 第二次分配样本
    assignment = assign_points(data_points, end_center, k)
    # 第二次的平方误差
    end_sum_E = getE(assignment, end_center)
    count = 2  # 计数器
    # 比较前后两个聚类中心向量是否相等
    # print(compare(end_center,begin_center)==False)
    while (begin_sum_E != end_sum_E):
        begin_center = end_center
        begin_sum_E = end_sum_E
        # 再次更新聚类中心
        end_center = update_cluster_center(begin_center, assignment, k)
        # 进行分配
        assignment = assign_points(data_points, end_center, k)
        # 计算误差
        end_sum_E = getE(assignment, end_center)
        count = count + 1  # 计数器加1
    return assignment, end_sum_E, end_center, count


def print_result(count, end_sum_E, k, assignment):
    # 打印最终聚类结果
    print('经过', count, '次聚类，平方误差为：', end_sum_E)
    print('---------------------------------分类结果---------------------------------------')
    for i in range(k):
        print('第', i + 1, '类数据：', assignment[i])
    print('--------------------------------------------------------------------------------\n')


def plot(k, assignment, center):
    # 初始坐标列表
    x = []
    y = []
    for i in range(k):
        x.append([])
        y.append([])
    # 填充坐标 并绘制散点图
    for j in range(k):
        for i in range(len(assignment[j])):
            x[j].append(assignment[j][i][0])  # 横坐标填充
        for i in range(len(assignment[j])):
            y[j].append(assignment[j][i][1])  # 纵坐标填充
        plt.scatter(x[j], y[j], marker='o')
        plt.scatter(center[j][0], center[j][1], c='b', marker='*')  # 画聚类中心
    # 设置标题
    plt.title('K-means Scatter Diagram')
    # 设置X轴标签
    plt.xlabel('X')
    # 设置Y轴标签
    plt.ylabel('Y')
    # 显示散点图
    plt.show()


def main():
    # 3个聚类中心
    k = 4
    data_points = read_data()
    assignment, end_sum_E, end_center, count = k_means(data_points, k)
    min_sum_E = 1000
    # 返回较小误差
    while min_sum_E > end_sum_E:
        min_sum_E = end_sum_E
        assignment, end_sum_E, end_center, count = k_means(data_points, k)
    print_result(count, min_sum_E, k, assignment)  # 输出结果
    plot(k, assignment, end_center)  # 画图


main()

DBSCAN 代码：

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import sklearn.datasets as ds
import matplotlib.colors
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler


# 设置属性防止中文乱码及拦截异常信息
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

# 创建模拟数据
N = 1000
centers = [[1, 2], [-1, -1], [1, -1], [-1, 1]]
data1, y1 = ds.make_blobs(N, n_features=2,
  centers=centers, cluster_std=(1,0.75, 0.5,0.25), random_state=0)
data1 = StandardScaler().fit_transform(data1)
params1 = ((0.15, 5), (0.2, 10), (0.2, 15), (0.3, 5), (0.3, 10), (0.3, 15))

t = np.arange(0, 2 * np.pi, 0.1)
data2_1 = np.vstack((np.cos(t), np.sin(t))).T
data2_2 = np.vstack((2*np.cos(t), 2*np.sin(t))).T
data2_3 = np.vstack((3*np.cos(t), 3*np.sin(t))).T
data2 = np.vstack((data2_1, data2_2, data2_3))
y2 = np.vstack(([0] * len(data2_1), [1] * len(data2_2), [2] * len(data2_3)))
params2 = ((0.5, 3), (0.5, 5), (0.5, 10), (1., 3), (1., 10), (1., 20))

datasets = [(data1, y1,params1), (data2, y2,params2)]


def expandBorder(a, b):
    d = (b - a) * 0.1
    return a-d, b+d

# 画图


colors = ['r', 'g', 'b', 'y', 'c', 'k']
cm = mpl.colors.ListedColormap(colors)

for i, (X, y, params) in enumerate(datasets):
    x1_min, x2_min = np.min(X, axis=0)
    x1_max, x2_max = np.max(X, axis=0)
    x1_min, x1_max = expandBorder(x1_min, x1_max)
    x2_min, x2_max = expandBorder(x2_min, x2_max)

    plt.figure(figsize=(12, 8), facecolor='w')
    plt.suptitle(u'DBSCAN聚类-数据%d' % (i + 1), fontsize=20)
    plt.subplots_adjust(top=0.9, hspace=0.35)

    for j, param in enumerate(params):
        eps, min_samples = param
        model = DBSCAN(eps=eps, min_samples=min_samples)
        # eps 半径，控制邻域的大小，值越大，越能容忍噪声点，
        # 值越小，相比形成的簇就越多
        # min_samples 原理中所说的M，控制哪个是核心点，
        # 值越小，越可以容忍噪声点，越大，就更容易把有效点划分成噪声点

        model.fit(X)
        y_hat = model.labels_

        unique_y_hat = np.unique(y_hat)
        n_clusters = len(unique_y_hat) - (1 if -1 in y_hat else 0)
        print("类别:", unique_y_hat, "；聚类簇数目:", n_clusters)

        core_samples_mask = np.zeros_like(y_hat, dtype=bool)
        core_samples_mask[model.core_sample_indices_] = True

        # 开始画图
        plt.subplot(3, 3, j + 1)
        for k, col in zip(unique_y_hat, colors):
            if k == -1:
                col = 'k'

            class_member_mask = (y_hat == k)
            xy = X[class_member_mask & core_samples_mask]
            plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=col,
                     markeredgecolor='k', markersize=14)
            xy = X[class_member_mask & ~core_samples_mask]
            plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=col,
                     markeredgecolor='k', markersize=6)
        plt.xlim((x1_min, x1_max))
        plt.ylim((x2_min, x2_max))
        plt.grid(True)
        plt.title('$\epsilon$ = %.1f  m = %d，聚类簇数目：%d' % (eps, min_samples,

                                                          n_clusters), fontsize=16)
    # 原始数据显示
    plt.subplot(3, 3, 7)
    plt.scatter(X[:, 0], X[:, 1], c=y, s=30, cmap=cm, edgecolors='none')
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.title('原始数据，聚类簇数目:%d' % len(np.unique(y)))
    plt.grid(True)
    plt.show()

【PART 2：DATA：2020-10-16 12:00:03】

一、层次聚类

层次聚类试图在不同层次对数据集进行划分，从而形成树型的聚类结构。

问：层次聚类解决什么问题？

答：把明德 7 层这么多同学聚类，按什么标准聚？（按照专业 / 按照实验室 / 按照宿舍）聚成几个簇？就像是学号，第一位代表研究生/本科，二三位代表年级，四五六代表专业，最后两位代表个人序号。

问：层次聚类怎么做？步骤？

答：

问：怎样判断相邻簇的距离（A簇有5个元素，B簇有3个元素，AB的距离？）

答：

二、EM（最大期望值算法）

EM 聚类，英文是 Expectation Maximization，所以EM算法也叫做最大期望算法。

这个算法应该是咱们介绍这几个算法里最难理解的，我也是反复查资料才大概搞明白一点它的原理，但是我不认为我能讲清楚。所以我今天的介绍就通过两个例子，给大家讲讲EM算法的用途和建立一点感性的认识。

l 感性认识

首先咱们先建立一个感性的认识：我们先看一个简单的场景：假设你炒了一份菜，想要把它平均分到两个碟子里，该怎么分？

很少有人用称对菜进行称重，再计算一半的分量进行平分。大部分人的方法是先分一部分到碟子 A 中，然后再把剩余的分到碟子 B 中，再来观察碟子 A 和 B 里的菜是否一样多，哪个多就匀一些到少的那个碟子里，然后再观察碟子 A 和 B 里的是否一样多……整个过程一直重复下去，直到份量不发生变化为止。

你能从这个例子中看到三个主要的步骤：初始化参数、观察预期、重新估计。首先是先给每个碟子初始化一些菜量，然后再观察预期，这两个步骤实际上就是期望步骤（Expectation）。如果结果存在偏差就需要重新估计参数，这个就是最大化步骤（Maximization）。这两个步骤加起来也就是 EM 算法的过程。

EM算法和其他算法的区别是：K-means，DBSCAN得到的结果都是某个点属于哪个簇；但是EM不是这样的，它是基于模型的聚类，它是要建模，比如用高斯模型，这样做有什么用呢？有了模型以后咱们可以生成新的样本，新的样本和原来的样本是一致的。

三、代码

数据

这里我们收集了 69 名英雄的 20 个特征属性，这些属性分别是最大生命、生命成长、初始生命、最大法力、法力成长、初始法力、最高物攻、物攻成长、初始物攻、最大物防、物防成长、初始物防、最大每 5 秒回血、每 5 秒回血成长、初始每 5 秒回血、最大每 5 秒回蓝、每 5 秒回蓝成长、初始每 5 秒回蓝、最大攻速和攻击范围等。

具体的数据集你可以在 GitHub 上下载：https://github.com/cystanford/EM_data。

具体代码


# -*- coding: utf-8 -*-
import pandas as pd
import csv
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler
 
# 数据加载，避免中文乱码问题
data_ori = pd.read_csv('./heros7.csv', encoding = 'gb18030')
features = [u'最大生命',u'生命成长',u'初始生命',u'最大法力', u'法力成长',u'初始法力',u'最高物攻',u'物攻成长',u'初始物攻',u'最大物防',u'物防成长',u'初始物防', u'最大每5秒回血', u'每5秒回血成长', u'初始每5秒回血', u'最大每5秒回蓝', u'每5秒回蓝成长', u'初始每5秒回蓝', u'最大攻速', u'攻击范围']
data = data_ori[features]
 
# 对英雄属性之间的关系进行可视化分析
# 设置plt正确显示中文
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
# 用热力图呈现features_mean字段之间的相关性
corr = data[features].corr()
plt.figure(figsize=(14,14))
# annot=True显示每个方格的数据
sns.heatmap(corr, annot=True)
plt.show()
 
# 相关性大的属性保留一个，因此可以对属性进行降维
features_remain = [u'最大生命', u'初始生命', u'最大法力', u'最高物攻', u'初始物攻', u'最大物防', u'初始物防', u'最大每5秒回血', u'最大每5秒回蓝', u'初始每5秒回蓝', u'最大攻速', u'攻击范围']
data = data_ori[features_remain]
data[u'最大攻速'] = data[u'最大攻速'].apply(lambda x: float(x.strip('%'))/100)
data[u'攻击范围']=data[u'攻击范围'].map({'远程':1,'近战':0})
# 采用Z-Score规范化数据，保证每个特征维度的数据均值为0，方差为1
ss = StandardScaler()
data = ss.fit_transform(data)
# 构造GMM聚类
gmm = GaussianMixture(n_components=30, covariance_type='full')
gmm.fit(data)
# 训练数据
prediction = gmm.predict(data)
print(prediction)
# 将分组结果输出到CSV文件中
data_ori.insert(0, '分组', prediction)
data_ori.to_csv('./hero_out.csv', index=False, sep=',')