详细数据分析步骤（一）-数据获取_框架

数据分析师如今风靡全网，那么什么是数据分析呢？此合集将会对数据分析的框架做一个细致解析并推荐相关文章以便入门学习。

一、数据获取

现如今大数据时代已经到来，企业需要数据来分析用户行为、自己产品的不足之处以及竞争对手的信息等，而这一切的首要条件就是数据的采集。常用的数据获取手段有数据仓库和 *** 作日志，监测与爬取（即爬虫），填写、埋点和计算

1、数据仓库和 *** 作日志

数据仓库（Data Warehouse，DW）长期储存在计算机内，有组织、可共享的数据集合，是为决策支持系统提供基础数据的分析型数据库。

数据仓库有几个定义特征，即：

推荐阅读：一、数据仓库 - 架构艺术 - 博客园

日志和数据仓库具有相同的作用，但相比之下日志的记录比数据仓库精简，且在出现故障时更容易定位问题。

2监测与爬取

爬虫是指：通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种。

通用爬虫是捜索引擎抓取系统（Baidu、Google等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，再对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。

聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

推荐阅读：爬虫（爬虫原理与数据抓取） - lclc - 博客园

爬虫 - Z-J-H - 博客园

3填写、埋点

这两个都是对用户行为进行记录。

填写是指用户在注册时填写信息或者对相关问卷进行填写。通过问卷调查、抽样调查获取的数据是有限的，并且有时也不能够保证真实性。

埋点主要指 APP或网页埋点，跟踪app或网页被使用情况，以便优化。通常记录访客、页面查看、跳出率等等页面统计和 *** 作行为）。直接记录用户与网络产品的交互过程，几乎可以复现，从而获得用户的行为模式，购买记录、搜索习惯等。这些数据都是用户自己产生的，可以保证数据的真实性。

推荐阅读：6大步骤：快速学会如何进行数据埋点

4计算

很多数据无法直接获取，需要通过已有数据计算得到。例如企业的投入产出比。

最后，需要强调的是进行数据分析的数据必须真实、准确且具有时效性。数据获取后使用个人信息要遵守以下5大原则：

（1）合法、公开原则。

（2）目的限制原则。

（3）最小数据原则。

（4）数据安全原则。

（5）限期存储原则。

下一篇文章将会对数据分析中的数据预处理做一个简单梳理

本文介绍《爬虫应用示例--puppeteer数据抓取的实现方法》中涉及到的puppeteer组件如何安装，以及相关的坑。

Puppeteer 是一个node库，内含了一个chrome浏览器，以及一组用来 *** 纵Chrome的API。

详细数据分析步骤（一）-数据获取