- 1.模型是如何工作的
- 2.基本数据探索
- 3.你的第一个机器学习模型
- 4.模型评估
- 5.欠拟合和过拟合
- 6.随机森林
- 7.机器学习竞赛
1.模型是如何工作的
- sklearn快速入门教程
- 前言
- 介绍
- 改进决策树
- 继续
介绍本文是kaggle上 机器学习 的入门课程,学习大约为 3 个小时,共七部分,除第一部分介绍外,每部分包括辅导和练习。
此为第一部分,原文链接
对于机器学习来讲这个是初级教程。
我们将从机器学习模型如何工作以及如何使用的概述开始。如果你以前做过统计建模或机器学习,这可能会让你觉得很基本。别担心,我们很快就会构建强大的模型。
本课程将让您在以下场景时构建模型:
你表弟在房地产投机上赚了数百万美元。因为你对数据科学感兴趣,他愿意与你成为商业伙伴。他会提供资金,你会提供预测各种房屋价值的模型。
你问你表弟过去是如何预测房地产价值的,他说这只是直觉。但更多的质疑表明,他从过去看到的房屋中识别出了价格,并利用这个模式预测他所考虑的新房屋的价格。
机器学习也是如此。我们将从一个名为决策树的模型开始。有一些更奇特的模型可以给出更准确的预测。但决策树很容易理解,它们是数据科学中一些最佳模型的基本构建模块。
为了简单起见,我们将从最简单的决策树开始。
它只将房屋分为两类。任何正在考虑的房屋的预测价格都是同类房屋的历史平均价格。
我们使用数据来决定如何将房屋分成两组,然后再次确定每组的预测价格。从数据中捕获模式的这一步称为拟合或训练模型。用于拟合模型的数据称为训练数据。
模型拟合的细节(例如,如何分割数据)非常复杂,我们将稍后保存。模型拟合后,可以将其应用于新数据,以预测额外房屋的价格。
改进决策树以下两种决策树中,哪一种更可能来自房地产培训数据的拟合?
左边的决策树(决策树1)可能更有意义,因为它抓住了一个现实,即卧室多的房子往往比卧室少的房子售价更高。该模型最大的缺点是,它没有捕捉到影响房价的大多数因素,如浴室数量、地块大小、位置等。
使用具有更多“拆分”的树可以捕获更多因子这些树被称为“深”树。同时考虑每套房屋地块总面积的决策树可能如下所示:
你可以通过追踪决策树来预测任何房子的价格,总是根据房子的特征选择相应的路径。这所房子的预计价格在树的底部。我们在底部做预测的那一点叫做叶子。
叶子上的分割和值将由数据决定,所以是时候检查一下将使用的数据了。
继续让我们更具体一点。是时候检查你的数据了。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)