机器学习之路2

机器学习之路2,第1张

机器学习之路2 sklearn数据

首先安装sklearn:

pip install Scikit-learn

在pycharm中导入sklearn:

import sklearn

可以使用sklearn.datasets.load_来导入规模较小的数据集,并且其返回值的类型是datasets.base.Bunch(字典格式)

使用sklearn来加载鸢尾花的数据集

#导入鸢尾花的数据集
from sklearn.datasets import load_iris
def datasets_demo():
    #获取数据集
    iris = load_iris()
    #查看鸢尾花数据集
    print("鸢尾花数据集:n",iris)
    print("鸢尾花数据集描述:n", iris['DESCR'])
    print("查看数据集特征值的名字:n", iris.feature_names)
    print('查看特征值:n',iris.data,iris.data.shape)
数据集的划分

机器学习一般的数据集会划分为两个部分:

训练数据:用于训练,构建模型。

测试数据:在模型检验时使用,用于评估模型是否有效。

划分比例:(一般情况下)

训练集:70%---80%

测试集:30%---20%

划分API:

sklearn.model_selection.train_test_split

划分鸢尾花数据集

def datasets_demo():
    #获取数据集
    iris = load_iris()
    #数据集的划分(训练集和测试集的划分)
    #参数依次是:特征值,目标值,测试集的范围(测试集占数据集的多少),随机数种子
    #返回值的顺序:训练集的特征值,测试集的特征值,训练集的目标值,测试集的目标值
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
    print('训练集的特征值:n',x_train,x_train.shape)
    return None

 可以看到原数据集的大小事150*4

经过划分之后训练集的大小是

 训练集的大小是120*4

即150*0.2=30

30*4大小的数据集被划分成了测试集

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/4699120.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-07
下一篇 2022-11-07

发表评论

登录后才能评论

评论列表(0条)

保存