使用什么工具对mysql进行数据清洗_随笔

下载安装软件

使用navicate for mysl 之前当然先下载该软件，可以通过百度搜索查找 navicate 特别注意一下，请认准百度安全验证最好到官方网站，或者正规软件下载站下载

下载好软件之后，进行安装navicat for mysql(安装过程之间注意一下插件的自定义选择）

Navicat for mysql 怎么用?

连接数据库

打开navicat for mysql之后找到，文件----新建连接-- 如下图

连接参数填写

在出现的连接设置里面，有很多选项都是针对需要连接的数据库的账号信息

连接名：可以任意填写，方便以后识别区分即可

主机名或IP：填写服务器的主机名(必须要能解析的）或者服务器IP地址，如果是本机可以填写localhost 或 127.0.0.1

端口：默认是3306 如果修改了其他端口，需要对应

密码：就是用户名root密码或者其他mysql用户的密码

设置好连接数据库的参数之后，点击下方的“连接”如图出现“连接成功”即设置成功

数据库管理

连接上数据库之后，在左侧会显示当前mysql所有的数据库。点击对应的数据库，能查看当前数据库下面的表

添加删除数据库

如果需要添加删除数据库的话，很简单选择需要 *** 作的数据库，鼠标右键选择 *** 作即可

添加删除表

同样对于数据库下方的表，如果要新建的话点击选择表---新建

对于新建的表，名和类型都可以手动输入指定选择。设置好之后，点击保存输入表名即可完成 *** 作

点击添加好的表，或数据库的表。双击之后右侧会列出当前表的详细列项目和属性

如何使用命令行

虽然是图形化管理工具，但是对于很多 *** 作其实还是需要SQL命令会更加方便。进入sql命令行界面，点击“工具”--“命令列界面”如下图箭头位置

随后在右下方空白区域进入了SQL命令行界面， *** 作方法和普通进入mysql命令行界面一样使用命令。如果需要清除当前屏幕内容，可以点击“清除”即可

其他功能

对于之前数据库已经导出的sql文件，或者写好的sql命令语句。可以通过选择需要导入的数据库，或表右键选项“运行sql文件”

数据清洗需要清理的数据，是输入数据后需要对数据进行预处理，只有处理得当的数据才能进到数据挖掘的步骤。而处理数据包括对数据数量和质量的处理。包括对缺失的数据有添补或删除相关行列方法，具体步骤自己判断，如果数据量本来就很少还坚持删除，那就是自己的问题了。添补:常用拉格朗日插值或牛顿插值法，也蛮好理解，属于数理基础知识。(pandas库里自带拉格朗日插值函数，而且这个好处是还可以在插值前对数据进行异常值检测，如果异常那么该数据就也被视为需要进行插值的对象)。删除:这个也好理解，就是对结果分析没有直接影响的数据删除。异常值这个是否剔除需要视情况而定像问题1中视为缺失值重新插值删除含有异常值的记录(可能会造成样本量不足，改变原有分布) 平均值修正(用前后两个观测值平均值)综上，还是方案一靠谱。人生苦短，学好python3 数据量太多，有三种方法:集成，规约，变换(1)数据是分散的时，这个就是指要从多个分散的数据仓库中抽取数据，此时可能会造成冗余的情况。此时要做的是【数据集成】。数据集成有两方面内容:①冗余属性识别②矛盾实体识别属性:对于冗余属性个人理解是具有相关性的属性分别从不同的仓库中被调出整合到新表中，而新表中由于属性太多造成冗余，这时可以靠相关性分析来分析属性a和属性b的相关系数，来度量一个属性在多大程度上蕴含另一个属性。等等。数据清洗时预处理阶段主要做两件事情：一是将数据导入处理工具。通常来说，建议使用数据库，单机跑数搭建MySQL环境即可。如果数据量大（千万级以上），可以使用文本文件存储+Python *** 作的方式。二是看数据。这里包含两个部分：一是看元数据，包括字段解释、数据来源、代码表等等一切描述数据的信息；二是抽取一部分数据，使用人工查看方式，对数据本身有一个直观的了解，并且初步发现一些问题，为之后的处理做准备。数据清洗是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系到模型效果和最终结论。在实际 *** 作中，数据清洗通常会占据分析过程的50%—80%的时间。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/6102369.html

使用什么工具对mysql进行数据清洗

发表评论

评论列表（0条）