首先安装sklearn:
pip install Scikit-learn
在pycharm中导入sklearn:
import sklearn
可以使用sklearn.datasets.load_来导入规模较小的数据集,并且其返回值的类型是datasets.base.Bunch(字典格式)
使用sklearn来加载鸢尾花的数据集
#导入鸢尾花的数据集 from sklearn.datasets import load_iris def datasets_demo(): #获取数据集 iris = load_iris() #查看鸢尾花数据集 print("鸢尾花数据集:n",iris) print("鸢尾花数据集描述:n", iris['DESCR']) print("查看数据集特征值的名字:n", iris.feature_names) print('查看特征值:n',iris.data,iris.data.shape)数据集的划分
机器学习一般的数据集会划分为两个部分:
训练数据:用于训练,构建模型。
测试数据:在模型检验时使用,用于评估模型是否有效。
划分比例:(一般情况下)
训练集:70%---80%
测试集:30%---20%
划分API:
sklearn.model_selection.train_test_split
划分鸢尾花数据集
def datasets_demo(): #获取数据集 iris = load_iris() #数据集的划分(训练集和测试集的划分) #参数依次是:特征值,目标值,测试集的范围(测试集占数据集的多少),随机数种子 #返回值的顺序:训练集的特征值,测试集的特征值,训练集的目标值,测试集的目标值 x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22) print('训练集的特征值:n',x_train,x_train.shape) return None
可以看到原数据集的大小事150*4
经过划分之后训练集的大小是
训练集的大小是120*4
即150*0.2=30
30*4大小的数据集被划分成了测试集
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)