sklearn快速入门教程 1.模型是如何工作的

code • 2022-4-26 • java • 阅读 56

sklearn快速入门教程

1.模型是如何工作的
2.基本数据探索
3.你的第一个机器学习模型
4.模型评估
5.欠拟合和过拟合
6.随机森林
7.机器学习竞赛

1.模型是如何工作的

sklearn快速入门教程
- - 前言
  - 介绍
  - 改进决策树
  - 继续

前言

本文是kaggle上 机器学习 的入门课程，学习大约为 3 个小时，共七部分，除第一部分介绍外，每部分包括辅导和练习。
此为第一部分，原文链接
对于机器学习来讲这个是初级教程。

介绍

我们将从机器学习模型如何工作以及如何使用的概述开始。如果你以前做过统计建模或机器学习，这可能会让你觉得很基本。别担心，我们很快就会构建强大的模型。

本课程将让您在以下场景时构建模型：

你表弟在房地产投机上赚了数百万美元。因为你对数据科学感兴趣，他愿意与你成为商业伙伴。他会提供资金，你会提供预测各种房屋价值的模型。

你问你表弟过去是如何预测房地产价值的，他说这只是直觉。但更多的质疑表明，他从过去看到的房屋中识别出了价格，并利用这个模式预测他所考虑的新房屋的价格。

机器学习也是如此。我们将从一个名为决策树的模型开始。有一些更奇特的模型可以给出更准确的预测。但决策树很容易理解，它们是数据科学中一些最佳模型的基本构建模块。

为了简单起见，我们将从最简单的决策树开始。

它只将房屋分为两类。任何正在考虑的房屋的预测价格都是同类房屋的历史平均价格。
我们使用数据来决定如何将房屋分成两组，然后再次确定每组的预测价格。从数据中捕获模式的这一步称为拟合或训练模型。用于拟合模型的数据称为训练数据。

模型拟合的细节（例如，如何分割数据）非常复杂，我们将稍后保存。模型拟合后，可以将其应用于新数据，以预测额外房屋的价格。

改进决策树

以下两种决策树中，哪一种更可能来自房地产培训数据的拟合？

左边的决策树（决策树1）可能更有意义，因为它抓住了一个现实，即卧室多的房子往往比卧室少的房子售价更高。该模型最大的缺点是，它没有捕捉到影响房价的大多数因素，如浴室数量、地块大小、位置等。

使用具有更多“拆分”的树可以捕获更多因子这些树被称为“深”树。同时考虑每套房屋地块总面积的决策树可能如下所示：

你可以通过追踪决策树来预测任何房子的价格，总是根据房子的特征选择相应的路径。这所房子的预计价格在树的底部。我们在底部做预测的那一点叫做叶子。

叶子上的分割和值将由数据决定，所以是时候检查一下将使用的数据了。

继续

让我们更具体一点。是时候检查你的数据了。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/langs/726419.html

机器学习

打赏

微信扫一扫

支付宝扫一扫

code 管理员组

计算机视觉基础3---图像和视频基本 *** 作2

上一篇 2022-04-26

调用云服务实现语音识别合成以及感情分析

下一篇 2022-04-26

发表评论

登录后才能评论

评论列表（0条）