本文利用python实现机器学习的一种基础算法KNN算法。 如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN计算方法是通过找出一个样本的k个最近点,将这些点的属性平均值给予该样本,就可以得到该样本的属性。则可得到该未知点的分类。
如程序中有两类型点,将其描于坐标轴,计算未知点与每一个点的距离,并取最近的三点,即可得到未知点的分类
import numpy as np
import operator
def Dateset():
group=np.array([[30,104],[20,100],[10,81],[101,10],[99,15],[98,12]])
labels=['1','1','1','2','2','2']
return group,labels
def KNN(in_x,x_labels,y_labels,k):
x_labels_size=x_labels.shape[0]
distance=(np.tile(in_x,(x_labels_size,1))-x_labels)**2
ad_distances=distance.sum(axis=1)
sq_distances=ad_distances**0.5
ed_distances=sq_distances.argsort()
classdict={}
for i in range(k):
voteI_label=y_labels[ed_distances[i]]
classdict[voteI_label]=classdict.get(voteI_label,0)+1
sort_classdict=sorted(classdict.items(),key=operator.itemgetter(1),reverse=True)
return sort_classdict[0][0]
if __name__=='__main__':
group,labels=Dateset()
text_x=[20,100]
print('类别是:{}'.format(KNN(text_x,group,labels,3)))
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)