python实现kmeans聚类

python实现kmeans聚类,第1张

目录

一、先上手撸代码!

1、导库、导数据

 2、核心算法

3、可视化部分

二、调库代码!(sklearn)


 

一、先上手撸代码! 1、首先是导入所需要的库和数据
import pandas as pd
import numpy as np
import random
import math
import matplotlib.pyplot as plt

# 这两行代码解决 plt 中文显示的问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

df = pd.read_excel('13信科学生成绩.xlsx')
data = np.array(df)

df.head(10)

先给大伙们看看数据集长啥样:

用matplotlib简单的可视化一下初始数据:

# 输入数据
x = data.T[0]
y = data.T[1]

plt.scatter(x, y, s=50, c='r')  # 画散点图
plt.xlabel('平时')  # 横坐标轴标题
plt.ylabel('期末')  # 纵坐标轴标题
plt.show()

 

 2、接下来就是kmeans的核心算法了
k=3
i = 1

min1 = data.min(axis = 0)
max1 = data.max(axis = 0)

#在数据最大最小值中随机生成k个初始聚类中心,保存为t
centre = np.empty((k,2))
for i in range(k):
    centre[i][0] = random.randint(min1[0],max1[0])#平时成绩
    centre[i][1] = random.randint(min1[1],max1[1])#期末成绩

while i<500:
    
    #计算欧氏距离
    def euclidean_distance(List,t):
        return math.sqrt(((List[0] - t[0])**2 + (List[1] - t[1])**2))

    #每个点到每个中心点的距离矩阵
    dis = np.empty((len(data),k))
    for i in range(len(data)):
        for j in range(k):
            dis[i][j] = euclidean_distance(data[i],centre[j])
    
    #初始化分类矩阵
    classify = []
    for i in range(k):
        classify.append([])
    
    #比较距离并分类
    for i in range(len(data)):
        List = dis[i].tolist()
        index = List.index(dis[i].min())
        classify[index].append(i)
    
    #构造新的中心点
    new_centre = np.empty((k,2))
    for i in range(len(classify)):

        new_centre[i][0] = np.sum(data[classify[i]][0])/len(classify[i])
        new_centre[i][1] = np.sum(data[classify[i]][1])/len(classify[i])

     
    #比较新的中心点和旧的中心点是否一样
    if (new_centre == centre).all():
        break
    else:
        centre = new_centre
        i = i + 1


# print('迭代次数为:',i)
print('聚类中心为:',new_centre)
print('分类情况为:',classify)

注意!!!这里的k是指分成k类,读者可以自行选取不同的k值做实验

3、可视化部分(将不用类用不同颜色区分开来~~)
mark = ['or', 'ob', 'og', 'ok','sb', 'db', '
 一起来康康可视化结果8!!

二、接下来是调库代码!(sklearn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans  
from sklearn import metrics

df = pd.read_excel('13信科学生成绩.xlsx')
data = np.array(df)
y_pred=KMeans(n_clusters=3,random_state=9).fit_predict(data)
plt.scatter(data[:,0],data[:,1],c=y_pred)
plt.show()
print(metrics.calinski_harabasz_score(data,y_pred))
 可视化结果和手撸的结果略有差别,有可能是数据集的问题,也有可能是k值选取的问题,各位亲们不需要担心!!!

  呜呜呜本人第一次发博客记录自己的学习瞬间,有什么建议或者问题都可以提出来喔!copy了代码的小朋友不要忘了关注点赞么么哒!!

 

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/943851.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-18
下一篇 2022-05-18

发表评论

登录后才能评论

评论列表(0条)