拓扑数据处理资料整理1_随笔

拓扑数据处理资料整理1 前言

上一学期学习了《拓扑数据处理的课程》，在这里做一下自己的总结。顺序参照了浙江大学蔺宏伟老师的PPT，内容参考了老师的ppt、网上的资源以及自己的理解。

前言

1、数据分析概述

2、数据抓取原理

3、数据清洗方法与实现

1、数据分析概述大数据存在问题：

随着数据采集技术与存储技术的提高

(1) 数据的生成速度远快于数据的处理速度

(2) 数据的结构也越来越复杂

计算机领域的解决方案：

(1) 存储方式的改进-Hadoop

(2) 计算体系的改进-MapReduce

大数据特点：

不能集中存储难以在可接受的时间内分析处理数据个体价值低整体价值高

volume（量大）

velocity（产生速度快快于处理速度）

variety（极其复杂的多样性）

value（个体价值低，整体价值高）

veracity（数据来源多种多样，真实性难以验证）

拓扑数据分析简介理论基础：

计算拓扑 Computational topology

如何推断给定数据集合的本质拓扑特征

抽取连通子集，环，洞，以及其他高维拓扑特征

度量它们的重要性

小扰动下保持稳定

数学背景

代数拓扑

统计

几何

在计算的视角下，提供连接几何和拓扑的一种计算工具

主要工具

持续同调

Mapler

2、数据抓取原理数据获取方式：

(1) 企业生产的用户数据

(2) 政府机构提供的公开数据

(3) 数据管理咨询公司： (i.) 国内最大的数据公司艾瑞 (ii.) 国际上麦肯锡

(4) 第三方数据平台购买数据： (i.) 数据堂 (ii.) 贵阳大数据交易所

(5) 爬虫爬取数据

爬虫原理：

(1) 网络爬虫(Web Spider)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它可以通过程序设计来获取指定网页中的指定信息，如百度贴吧的帖子信息，新闻网站的新闻文章等等

(2) 获取到的数据多用于大数据分析场景，因此编写网络爬虫是从事大数据分析行业的必备技能之一

爬虫流程：

准备工作，获取数据，解析内容，保存数据

应对反爬虫

(1) 伪装请求报头，可以伪装成浏览器

(2) 减轻访问频率，速度

(3) 使用代理IP

3、数据清洗方法与实现数据科学概括：

(1) 数据科学是一门以数据为研究中心的学科——它以数据的广泛性和多样性为基础，探寻数据集合的共性

(2) 数据科学也是一门关于数据的工程——它需要同时具备理论基础和工程经验，需要掌握各种工具的用法

(3) 数据科学主要包括两个方面：用数据的方法来研究科学和用科学的方法来研究数据

数据科学的处理过程

(1) 问题陈述，明确需要解决的问题和任务

(2) 数据采集，通过多种手段采集来自众多数据源的数据

(3) 数据清洗，对数据进行针对性地整理和规范以便于后面的分析和处理

(4) 数据分析和挖掘，运用特定模型和算法来寻求数据中隐含的知识和规律

(5) 数据呈现和可视化，通常以图形化的方式来呈现数据分析的结果

(6) 科学决策：根据数据分析和处理结果来决定问题的解决方案

数据清洗的定义

对数据进行审查和校验，发现不准确、不完整或不合理数据，进而删除重复信息、纠正存在的错误，并保持数据的一致性、准确性、完整性和有效性，以提高数据的质量

数据清洗流程包含以下基本步骤

(1) 分析数据并定义清洗规则

(2) 搜寻并标识错误实例

(3) 纠正发现的错误

(4) 干净数据回流

(5) 数据清洗的评判

识别和剔除噪声数据的方法

(1) 分箱法

分箱方法通过考察“邻居”（即，周围的值）来平滑存储数据的值。存储的值被分布到一些“桶”或箱中，由于分箱方法导致值相邻，因此它进行局部平滑。

(2) 聚类法

离群点可以被聚类检测，聚类将类似的值组织成群或“聚类”。直观地，落在聚类集合之外的值被视为局外者

数据错误原因

(1) 人的错误、测量设备的限制或数据收集过程的漏洞

(2) 数据的值乃至整个数据对象都可能会丢失

(3) 可能有不真实或重复的对象

测量误差和数据收集错误可能是系统的，也可能是随机的

(1) 测量误差：指测量过程中导致的问题（如记录值与实际值不同，对于连续属性，测量值与实际值的差称为误差）

(2) 数据收集错误（遗漏数据对象或属性值，不当地包含了其他数据对象等错误；比如，一种特定种类动物研究可能包含了其他种类的动物）

噪声：

测量误差的随机部分，可能涉及值被扭曲，或加入了缪误对象

伪像：

确定性失真，如数据错误可能是更确定性现象的结果，举例一组照片在同一地方出现条纹

精度、偏倚和准确率

(1) 精度（precision）（同一个量）重复测量值之间的接近程度

(2) 偏倚（bias）测量值与被测量之间的系统的偏差

(3) 准确率（accuracy）被测量的测量值与实际值之间的接近度

离群点（outlier）

是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象，或是相对于该属性的典型值来说不寻常的属性值，也称为异常对象或异常值

噪声和离群点的区别：

(1) 离群点可以是合法的数据对象或值

(2) 与噪声不同，有时离群点本身就是人们感兴趣的对象

(3) 例如：在网络攻击检测中，目标就是从大量正常对象或事件中发现不正常的对象和事件

遗漏值、不一致的值、重复数据数据标准化/规范化处理主要包括数据同趋化处理和无量纲化处理两个方面：

(1) 数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，必须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，然后再加总才能得出正确结果

(2) 数据无量纲化处理主要用于消除变量间的量纲关系，解决数据评价分析中数据的可比性。例如，多指标综合评价方法需要把描述评价对象不同方面的多个信息综合起来得到一个综合指标，由此对评价对象做整体评判

数据规范化的方法：推荐看这两个贴子：

数据规范化的方法_Diana的博客-CSDN博客_数据规范化方法

数据规范化_zuozi123456的博客-CSDN博客

数据清洗范围：

缺失值清洗、格式内容清洗、逻辑错误清洗

缺失值清洗步骤：

(1) 确定范围，分别处理

(2) 去掉重要性低的字段：重要性低的字段，且缺失严重，可以采取将数据抽取的结果放入一中间临时库中，在数据清洗之前，先备份临时库数据，然后直接删除不需要的字段

(3) 填充缺失内容：某些缺失值补齐采取一定的值去填充缺失项，从而使数据完备化。通常基于统计学原理，根据决策表中其余对象取值的分布情况来对一个空值进行填充，例如用其属性的平均值来进行补充等

格式内容清洗

(1) 时间日期格式清洗

(2) 全角半角清洗

(3) 不应有的字符，采取半自动+人工方式相结合进行清洗

(4) 重新取数

(5) 内容与字段不匹配

逻辑错误清洗

(1) 排重清洗：在数据中查找和删除重复内容，而不会影响其保真度或完整性；数据排重需要技巧，首先一定要有信息去识别一条数据的唯一性，也就是类似数据库中的主键，如果唯一性都无法识别，排重也就无所依据

(2) 去除不合理值：若该数据不是很重要，建议直接删除，否则需要进行人工干预或者引入更多的数据源进行关联识别

(3) 修正矛盾内容：源端系统在提供数据时，存在部分信息可以相互验证的校验

数据校验

在数据清洗转换过程中，通过对转换的数据项增加验证约束，实现对数据转换过程的有效性验证。主要有：数据类型校验、正则表达式约束校验、查询表校验、范围和约束校验、代码和交叉参考校验等。

数据审计

通过对电子数据进行采集、转换、清理、验证和分析，帮助审计人员掌握总体情况，发现审计线索，搜集审计证据，从而进一步形成审计结论，实现审计目标

数据集成

将多个数据源中的数据结合成、存放在一个一致的数据存储中，这些源可能包括多个数据库或一般文件。需要考虑问题：

(1) 识别问题

(2) 冗余问题

(3) 数据值冲突的检测与处理

数据归约（数据简化）

数据归约技术用来得到原数据集的归约表示，它比原数据集小得多，但仍接近地保持原数据集的完整性；在归约后的数据集上挖掘将更有效。主要有以下策略：

(1) 维（属性）归约

(2) 数据压缩

(3) 数值压缩

(4) 离散化和概念分层产生

数据抽样

可作为一种数据归约技术使用，允许用较小随机样本（子集）表示大的数据集假定大的数据集 D包含N个元组。

预告：接下来预计会将剩下内容分布在两到三篇文章内写出来给大家~可以持续关注哦~

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5704855.html

拓扑数据处理资料整理1

发表评论

评论列表（0条）