sklearn快速入门教程 1.模型是如何工作的

sklearn快速入门教程 1.模型是如何工作的,第1张

sklearn快速入门教程
  • 1.模型是如何工作的
  • 2.基本数据探索
  • 3.你的第一个机器学习模型
  • 4.模型评估
  • 5.欠拟合和过拟合
  • 6.随机森林
  • 7.机器学习竞赛

1.模型是如何工作的
  • sklearn快速入门教程
      • 前言
      • 介绍
      • 改进决策树
      • 继续

前言

本文是kaggle上 机器学习 的入门课程,学习大约为 3 个小时,共七部分,除第一部分介绍外,每部分包括辅导和练习。
此为第一部分,原文链接
对于机器学习来讲这个是初级教程。

介绍

我们将从机器学习模型如何工作以及如何使用的概述开始。如果你以前做过统计建模或机器学习,这可能会让你觉得很基本。别担心,我们很快就会构建强大的模型。

本课程将让您在以下场景时构建模型:

你表弟在房地产投机上赚了数百万美元。因为你对数据科学感兴趣,他愿意与你成为商业伙伴。他会提供资金,你会提供预测各种房屋价值的模型。

你问你表弟过去是如何预测房地产价值的,他说这只是直觉。但更多的质疑表明,他从过去看到的房屋中识别出了价格,并利用这个模式预测他所考虑的新房屋的价格。

机器学习也是如此。我们将从一个名为决策树的模型开始。有一些更奇特的模型可以给出更准确的预测。但决策树很容易理解,它们是数据科学中一些最佳模型的基本构建模块。

为了简单起见,我们将从最简单的决策树开始。

它只将房屋分为两类。任何正在考虑的房屋的预测价格都是同类房屋的历史平均价格。
我们使用数据来决定如何将房屋分成两组,然后再次确定每组的预测价格。从数据中捕获模式的这一步称为拟合或训练模型。用于拟合模型的数据称为训练数据。

模型拟合的细节(例如,如何分割数据)非常复杂,我们将稍后保存。模型拟合后,可以将其应用于新数据,以预测额外房屋的价格。

改进决策树

以下两种决策树中,哪一种更可能来自房地产培训数据的拟合?

左边的决策树(决策树1)可能更有意义,因为它抓住了一个现实,即卧室多的房子往往比卧室少的房子售价更高。该模型最大的缺点是,它没有捕捉到影响房价的大多数因素,如浴室数量、地块大小、位置等。

使用具有更多“拆分”的树可以捕获更多因子这些树被称为“深”树。同时考虑每套房屋地块总面积的决策树可能如下所示:

你可以通过追踪决策树来预测任何房子的价格,总是根据房子的特征选择相应的路径。这所房子的预计价格在树的底部。我们在底部做预测的那一点叫做叶子。

叶子上的分割和值将由数据决定,所以是时候检查一下将使用的数据了。

继续

让我们更具体一点。是时候检查你的数据了。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/726419.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-26
下一篇 2022-04-26

发表评论

登录后才能评论

评论列表(0条)

保存