STM32单片机C语言程序使用KNN算法对乳腺肿瘤分类

STM32单片机C语言程序使用KNN算法对乳腺肿瘤分类,第1张

STM32单片机C语言程序使用KNN算法对乳腺肿瘤分类 一、概述

之前在《STM32单片机使用KNN算法实现鸢尾花分类》中使用了KNN算法对鸢尾花进行分类,程序采用C语言编写,运行于STM32F103单片机上,效果较好。本篇文章将采用KNN算法对乳腺肿瘤进行分类,看看单片机处理高维数据的表现。数据来自于UCI,下载地址https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29,整理好的数据已上传到资源breast_cancer_wisconsin(diagnostic).rar-机器学习文档类资源-CSDN文库 ,可下载使用。
源程序完整工程已上传至面包多(https://mianbaoduo.com/o/bread/Ypaclp9p),可选择下载。

二、数据预处理


该数据集描述中共有569组,但下载后实际有699组(仔细观察,实际上病例ID有相同的,可能是569是ID的数量,这点不做深究);虽然描述说没有缺失值,但实际有16组数据有缺失值,数据中以“?”代替,将这些数据剔除,还有683组,其中良性肿瘤(benign)444例,恶性肿瘤(malignant)239例。
每组数据11列,但ID和最终的分类不算是数据的特种,因此KNN算法需要处理的数据为9维。
在Excel中,将可用数据做如下处理:
① 将数据按照良性、恶性,分成两类;
② 为使程序简单,因ID不参与计算,去掉ID列;
③ 将两组数据,均随机排列;
④ 每组数据各取前40%作为训练集,剩余60%作为测试集,即良性肿瘤取178组作为训练集,恶性肿瘤取96组作为训练集。

三、主要代码

因为是二分类问题,因此取奇数k=3,使用printf函数打印分类结果,通过串口接收结果,主要代码如下:

void KNN_Classify(void)
{
    uint8_t u8BenignCnt = 0;
    uint8_t u8MalignantCnt = 0;
    uint8_t u8Max = 0;
    uint16_t i, j, m;
    uint16_t *pTest, *pTrain;
	Result_ts sCancerResult;
	uint16_t u16FailCnt = 0;
    for (i = 0; i < TEST_ROW; i++)
    {
        memset(&sCancerResult, 0, sizeof(sCancerResult));
		HAL_IWDG_Refresh(&hiwdg);
        for (j = 0; j < TRAIN_ROW; j++)//
        {
            pTest = (uint16_t *)&u16TestSet[i];
            pTrain = (uint16_t *)&u16TrainSet[j];
			HAL_IWDG_Refresh(&hiwdg);
            sCancerResult.u16Distance[j][0] = EuclideanDistance(pTest, pTrain, TRAIN_COLUMN - 1);//
            //sIrisResult.u16Distance[j][0] = ChebyshevDistance(pTest, pTrain, TRAIN_COLUMN - 1);//
			//sIrisResult.u16Distance[j][0] = ManhattanDistance(pTest, pTrain, TRAIN_COLUMN - 1);
            sCancerResult.u16Distance[j][1] = u16TrainSet[j][9];
			HAL_IWDG_Refresh(&hiwdg);
        }
        BubbleSort(sCancerResult.u16Distance, TRAIN_ROW);//第i个测试集的数据,排序
        u8BenignCnt = 0;
        u8MalignantCnt = 0;
		HAL_IWDG_Refresh(&hiwdg);
        for (m = 0; m < K_VALUE; m++)//前k个数据
        {
            switch (sCancerResult.u16Distance[m][1])
            {
                case BENIGN: u8BenignCnt++; break;                    
                case MALIGNANT: u8MalignantCnt++; break;                    
                default:break;
            }
        }
		
        u8Max = max(u8BenignCnt, u8MalignantCnt);
		u8Max = ((u8Max == u8BenignCnt) ? BENIGN : MALIGNANT);        
        sCancerResult.u8Class = u8Max;//保存分类结果
		for (j = 0; j < TEST_COLUMN - 1; j++)
		{
			printf(" %d",u16TestSet[i][j]);
		} 
		printf(" benignCnt: %d,malignantCnt: %d,", u8BenignCnt, u8MalignantCnt);
		switch(u8Max)
        {
            case BENIGN:
            {                    
                printf("class: benign ");//输出分类结果
                if (sCancerResult.u8Class == u16TestSet[i][9])//分类正确
                {
                    printf(" Successn");//
                }else
                {
					u16FailCnt++;
                    printf(" Failn");
                }
            }break;
            case MALIGNANT:
            {
                printf("class: malignant ");//输出分类结果
                if (sCancerResult.u8Class == u16TestSet[i][9])//分类正确
                {
                    printf(" Successn");//
                }else
                {
					u16FailCnt++;
                    printf(" Failn");
                }
            }break;            
            default:break;
        }		
		HAL_IWDG_Refresh(&hiwdg);
    }
	printf(" FailCnt:%d", u16FailCnt);
}
四、运行效果:

串口接收数据部分截图:


最后打印出失败数量是12个,测试集共409组,因此分类正确397组,准确率97.07%。

五、结论

在《STM32单片机使用KNN算法实现鸢尾花分类》中的结论基本也适用于本文对乳腺肿瘤的分类。其他距离公式(详见常用距离计算单片机C语言程序),k取其他值,改变训练集、测试集,都会影响效果,本文不再编程尝试。
另外,由于数据量巨大,需要将配置中的Stack Size设置的大一些;程序运行较慢,409组数据,大约10秒才全部计算完成。本文为了方便,将数据保存为数组在ROM中,如果在实际应用中,可以通过串口接收、内存卡读取等方式实现。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5703081.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存