《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率

《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率,第1张

概述《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率《机器学习》西瓜书P693.3选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率数据集:鸢尾花数据集数据集属性信息:1.萼片长度(以厘米计)2.萼片宽度(以厘米计)3.花瓣长度 《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率

《机器学习》西瓜书P69

3.3 选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率

@H_419_11@

数据集:鸢尾花数据集

数据集属性信息:

1.萼片长度(以厘米计)
2.萼片宽度(以厘米计)
3.花瓣长度(以厘米计)
4.花瓣宽度(以厘米计)
5.类别:

数据集处理说明:该数据集中鸢尾花种类共有3种,分别是:Iris-setosa、Iris-versicolor和Iris-virginica,由于题目中要求采用两种方法对数据集进行处理,因此我们将Iris-setosa和Iris-versicolor划分在一个数据集(称为1号数据集),并采用留一法法进行数据集的划分,Iris-versicolor和Iris-virginica放入另一个数据集(称为2号数据集)并使用交叉验证法进行划分。

【代码】

#Iris-setosa标记为0,Iris-versicolor标记为1,Iris-virginica标记为2def loadDataset(filename):    dataset_12=[]    dataset_23=[]    with open(filename,'r',enCoding='utf-8') as csvfile:        csv_reader = csv.reader(csvfile)        for row in csv_reader:            if row[4] == 'Iris-setosa':                row[4]=0                dataset_12.append(copy.deepcopy(row))            elif row[4]=='Iris-virginica':                row[4]=2                dataset_23.append(copy.deepcopy(row) )            else:                row[4]=1                dataset_12.append(copy.deepcopy(row))                dataset_23.append(copy.deepcopy(row))    data_12 = [[float(x) for x in row] for row in dataset_12]    data_23= [[float(x) for x in row] for row in dataset_23]    # print(data_12)    # print(data_23)    return data_12,data_23@H_419_29@

注意:在该程序中我们使用append(copy.deepcopy(row))进行深度复制,目的是避免对数组的 *** 作影响原数组的变化,下同!!!!


针对2号数据集:

【代码思路】我们使用10折交叉验证法对数据集每次划分为训练集和测试集,然后使用梯度下降法对训练集进行训练,并使用测试集求得每次的准确率,最终我们将10次准确率取平均值,即为最终的正确率。

【详细过程】

首先利用python中自带的函数进行10折交叉验证划分,由于返回的是划分数据的下标,因此我们需要找到对应的数据元素,然后,对得到的训练集和测试集中的数据进行预处理(在数组最后增加一列1,0,1存储真实标记),接着就可以参与训练,我们将迭代次数设置为2000次,我们发现当迭代次数达到2000之后,准确率很难再增长,于是取2000作为终止条件,将得到的w分别与10个测试集进行运算比较,得到10组准确率,取平均值即可。

最终我们得到10折交叉验证法进行对率回归得到的准确率为96%!

#定义sigmoID函数def sigmoID(z):	return 1.0 / (1 + np.exp(-z))#计算正确率def testing(testset,w,testlabel):    data = np.mat(testset).astype(float)    y = sigmoID(np.dot(data, w))    b, c = np.shape(y)  # 功能是查看矩阵或者数组的维数。    rightcount = 0    for i in range(b):        flag = -1        if y[i, 0] > 0.5:            flag = 1        elif y[i, 0] < 0.5:            flag = 0        if testlabel[i] == flag:            rightcount += 1    rightrate = rightcount / len(testset)    return rightrate#迭代求wdef training(dataset,labelset,testset,testlabel):    # np.dot(a,b) a和b矩阵点乘    # np.transpose()  转置    # np.ones((m,n))  创建一个m行n列的多维数组    data=np.mat(dataset).astype(float)    label=np.mat(labelset).transpose()    w = np.ones((len(dataset[0]),1))    #步长    n=0.0001    # 每次迭代计算一次正确率(在测试集上的正确率)    # 达到0.90的正确率,停止迭代    rightrate=0.0    count=0    while count<5000:        c=sigmoID(np.dot(data,w))        b=c-label        change = np.dot(np.transpose(data),b)        w=w-change*n        #预测,更新准确率        if rightrate<testing(testset,w,testlabel):            rightrate=testing(testset,w,testlabel)        count+=1    return rightratedef formdata(dataset,flag):#flag=1代表的是对一号数据集进行数据预处理,falg=2针对2号数据集    #主要是将训练集和测试集进行规范化处理,便于下一步进行正确率计算和迭代求w    data=[]    label=[]    if flag==1:        for row in dataset:            label.append(copy.deepcopy(row[4]))            row[4]=1            data.append(copy.deepcopy(row))    elif flag == 2:        for row in dataset:            label.append(copy.deepcopy(row[4]-1))            row[4]=1            data.append(copy.deepcopy(row))    return data,labeldef changedata(dataset,train_index,test_index):#对数据集进行处理,增加最后一列为1    trainset=[]    testset=[]    for i in train_index:        trainset.append(copy.deepcopy(dataset[i]))    for i in test_index:        testset.append(copy.deepcopy(dataset[i]))    return trainset,testset    #10折交叉验证法对数据集23进行分类def Flod_10(dataset):    sam=KFold(n_splits=10)    rightrate=0.0    for train_index,test_index in sam.split(dataset):#得到训练集和测试集的索引        # 下面将索引转化为所对应的元素,并将训练集进行迭代,每次求出最大的正确率        trainset,testset=changedata(dataset,train_index,test_index)        #print(trainset)        trainset,trainlabel=formdata(trainset,2)        testset,testlabel=formdata(testset,2)        rightrate+=training(trainset,trainlabel,testset,testlabel)    print(rightrate/10)@H_419_29@ 

最终结果:

[[-1.90048431] [-1.20567294] [ 2.31544454] [ 2.66095658] [-0.20997301]][[-1.86985439] [-1.3288315 ] [ 2.3427924 ] [ 2.64797632] [-0.16119412]][[-1.90055107] [-1.29322442] [ 2.37973509] [ 2.68461371] [-0.26297932]][[-2.00438577] [-1.18000688] [ 2.43352222] [ 2.65712983] [-0.15617894]][[-1.94737348] [-1.16692044] [ 2.35919664] [ 2.59038908] [-0.14542583]][[-1.91467144] [-1.22980709] [ 2.27891615] [ 2.74578832] [-0.23887025]][[-1.94810073] [-1.27450893] [ 2.37093425] [ 2.64955955] [-0.24649082]][[-1.99150258] [-1.25235181] [ 2.35312496] [ 2.75221192] [-0.20701229]][[-1.96302072] [-1.29024687] [ 2.31087635] [ 2.8008307 ] [-0.16047752]][[-1.9630222 ] [-1.35486554] [ 2.50563773] [ 2.44772595] [-0.25646535]]0.96@H_419_29@

针对1号数据集

【代码思路】我们使用留一法进行划分,将数据集的75%作为训练集,25%作为测试集,由于Iris-setosa、Iris-versicolor的个数为1:1因此采用分层抽样的方法,我们将每种花的75%作为训练集,25%作为测试集,然后进行迭代求准确率即可!

#留出法——对数据集12进行分类#将75%的样本作为训练,其余用作测试def leftOut(dataset):    train12=[]    test12=[]    for i in range(len(dataset)):        if i<=37:            train12.append(copy.deepcopy(dataset[i]))        elif i>50 and i<=88:            train12.append(copy.deepcopy(dataset[i]))        else:            test12.append(copy.deepcopy(dataset[i]))    trainset,trainlabel=formdata(train12,1)    testset,testlabel=formdata(test12,1)    rightrate=training(trainset,trainlabel,testset,testlabel)    print(rightrate)@H_419_29@

最终结果

总结

以上是内存溢出为你收集整理的《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率全部内容,希望文章能够帮你解决《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1186717.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存