之前在《STM32单片机使用KNN算法实现鸢尾花分类》中使用了KNN算法对鸢尾花进行分类,程序采用C语言编写,运行于STM32F103单片机上,效果较好。本篇文章将采用KNN算法对乳腺肿瘤进行分类,看看单片机处理高维数据的表现。数据来自于UCI,下载地址https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29,整理好的数据已上传到资源breast_cancer_wisconsin(diagnostic).rar-机器学习文档类资源-CSDN文库 ,可下载使用。
源程序完整工程已上传至面包多(https://mianbaoduo.com/o/bread/Ypaclp9p),可选择下载。
该数据集描述中共有569组,但下载后实际有699组(仔细观察,实际上病例ID有相同的,可能是569是ID的数量,这点不做深究);虽然描述说没有缺失值,但实际有16组数据有缺失值,数据中以“?”代替,将这些数据剔除,还有683组,其中良性肿瘤(benign)444例,恶性肿瘤(malignant)239例。
每组数据11列,但ID和最终的分类不算是数据的特种,因此KNN算法需要处理的数据为9维。
在Excel中,将可用数据做如下处理:
① 将数据按照良性、恶性,分成两类;
② 为使程序简单,因ID不参与计算,去掉ID列;
③ 将两组数据,均随机排列;
④ 每组数据各取前40%作为训练集,剩余60%作为测试集,即良性肿瘤取178组作为训练集,恶性肿瘤取96组作为训练集。
因为是二分类问题,因此取奇数k=3,使用printf函数打印分类结果,通过串口接收结果,主要代码如下:
void KNN_Classify(void) { uint8_t u8BenignCnt = 0; uint8_t u8MalignantCnt = 0; uint8_t u8Max = 0; uint16_t i, j, m; uint16_t *pTest, *pTrain; Result_ts sCancerResult; uint16_t u16FailCnt = 0; for (i = 0; i < TEST_ROW; i++) { memset(&sCancerResult, 0, sizeof(sCancerResult)); HAL_IWDG_Refresh(&hiwdg); for (j = 0; j < TRAIN_ROW; j++)// { pTest = (uint16_t *)&u16TestSet[i]; pTrain = (uint16_t *)&u16TrainSet[j]; HAL_IWDG_Refresh(&hiwdg); sCancerResult.u16Distance[j][0] = EuclideanDistance(pTest, pTrain, TRAIN_COLUMN - 1);// //sIrisResult.u16Distance[j][0] = ChebyshevDistance(pTest, pTrain, TRAIN_COLUMN - 1);// //sIrisResult.u16Distance[j][0] = ManhattanDistance(pTest, pTrain, TRAIN_COLUMN - 1); sCancerResult.u16Distance[j][1] = u16TrainSet[j][9]; HAL_IWDG_Refresh(&hiwdg); } BubbleSort(sCancerResult.u16Distance, TRAIN_ROW);//第i个测试集的数据,排序 u8BenignCnt = 0; u8MalignantCnt = 0; HAL_IWDG_Refresh(&hiwdg); for (m = 0; m < K_VALUE; m++)//前k个数据 { switch (sCancerResult.u16Distance[m][1]) { case BENIGN: u8BenignCnt++; break; case MALIGNANT: u8MalignantCnt++; break; default:break; } } u8Max = max(u8BenignCnt, u8MalignantCnt); u8Max = ((u8Max == u8BenignCnt) ? BENIGN : MALIGNANT); sCancerResult.u8Class = u8Max;//保存分类结果 for (j = 0; j < TEST_COLUMN - 1; j++) { printf(" %d",u16TestSet[i][j]); } printf(" benignCnt: %d,malignantCnt: %d,", u8BenignCnt, u8MalignantCnt); switch(u8Max) { case BENIGN: { printf("class: benign ");//输出分类结果 if (sCancerResult.u8Class == u16TestSet[i][9])//分类正确 { printf(" Successn");// }else { u16FailCnt++; printf(" Failn"); } }break; case MALIGNANT: { printf("class: malignant ");//输出分类结果 if (sCancerResult.u8Class == u16TestSet[i][9])//分类正确 { printf(" Successn");// }else { u16FailCnt++; printf(" Failn"); } }break; default:break; } HAL_IWDG_Refresh(&hiwdg); } printf(" FailCnt:%d", u16FailCnt); }四、运行效果:
串口接收数据部分截图:
最后打印出失败数量是12个,测试集共409组,因此分类正确397组,准确率97.07%。
在《STM32单片机使用KNN算法实现鸢尾花分类》中的结论基本也适用于本文对乳腺肿瘤的分类。其他距离公式(详见常用距离计算单片机C语言程序),k取其他值,改变训练集、测试集,都会影响效果,本文不再编程尝试。
另外,由于数据量巨大,需要将配置中的Stack Size设置的大一些;程序运行较慢,409组数据,大约10秒才全部计算完成。本文为了方便,将数据保存为数组在ROM中,如果在实际应用中,可以通过串口接收、内存卡读取等方式实现。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)