Pandas是做数据分析最核心的一个工具。我们要先了解数据分析,才能更好的明白Pandas,因此,本文分为三个部分:
- 1.数据分析
- 2.Pandas概述
- 3.Pandas安装anaconda
文章目录- 1. 数据分析
- 1.1 数据分析的背景
- 1.2 什么是数据分析
- 1.3 数据分析的应用场景
- 1.4 数据分析的流程
- 1.5 为什么选择Python做数据分析
- 2. Pandas概述
- 2.1 Pandas简介
- 2.2 Pandas来源
- 2.3 Pandas 特点
- 2.4 Pandas最主要的两种数据结构:
- 3. Pandas安装
- 3.1 创建新的python环境:anaconda环境
- 3.2 启用Jupyter Notebook开发环境,并使用pandas
- 3.3 常见的数据分析工具
随着计算机的大规模普及,网络数据有了一个爆发性地增长
,驱使着人们进入了一个崭新的时代:大数据时代
思考一个问题
既然数据这么多,怎么才能快速地拿到有价值的数据
呢?
数据分析
就可以从海量数据中挖掘潜藏的有价值的信息,帮助企业或个人预测未来的趋势和行为
。所以,不管从事什么行业,如果掌握了数据分析的能力,就会在其岗位上非常具有竞争力!
数据分析是使用统计分析方法
对数据进行分析,从中提取有用信息
和形成结论
,并加以详细研究和概括总结的过程。
数据分析的目的是:将隐藏
在一大批看似杂乱无章
的数据信息集中提炼
出来有用的数据
,以找出所研究对象的内在规律。
在统计学领域
中,数据分析可以划分为如下三类
:
类目 | 描述 |
---|---|
描述性数据分析 | 从一组数据中,可以摘要 并且描述 这份数据的集中和离散情形。 |
探索性数据分析 | 从海量数据 中找出规律,并产生分析模型 和研究假设 。 |
验证性数据分析 | 验证科研假设测试所需的条件是否达到,以保证验证性分析的可靠性 。 |
应用 | 方法及其结果 |
---|---|
营销 方面 | 通过会员卡形式获得消费者的个人信息 ,以便对消费者的购买信息进一步研究其购买习惯 ,发现各类有价值的目标群体 。 |
医疗 方面 | 医生通过记录 和分析 婴儿的心跳来监视早产婴儿和患病婴儿的情况,并针对婴儿的身体可能会出现的不适症状做出预测 ,这样可以帮助医生更好的救助患儿。 |
零售 方面 | 在美国零售业曾经有这样一个传奇故事,某家商店将纸尿裤和啤酒并排放在一起销售,结果纸尿裤和啤酒的销量双双增长! |
网络安全 方面 | 新型的病毒防御系统可以使用数据分析技术 ,建立潜在攻击识别分析模型 ,监测大量 网络活动数据和相应的访问行为,识别可能进行入侵的可疑模式。 |
交通物流 方面 | 用户可以通过业务系统和GPS定位系统获得数据 ,使用数据构建交流状况预测分析模型 ,有效预测实时路况、物流状况、车流量、货物吞吐量,进而提前补货,制定库存管理策略。 |
数据分析大致可以分为以下五个阶段
:
问:
为什么选择
Python
做数据分析?
答:
选择Python做数据分析,主要考虑的是Python
具有以下优势
:
- 语法
简单
精炼,适合初学者 - 拥有一个
巨大且活跃
的科学计算社区(强大的后援团!) - 拥有强大的
通用
编程能力 - 人工智能时代的通用语言
方便
对接其它语言
(Python是一种胶水语言)
Python本身的数据分析功能并不强,需要安装一些第三方的扩展库
来增强
它的能力。其中,针对结构化数据
(可简单理解为二维表
数据,或我们常用的Excel表
格数据)分析能力最强的第三方扩展库就是Pandas
Pandas 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发
,并于2009年底开源
出来的,目前由专注于Python数据包开发的PyData
开发team
继续开发和维护,属于PyData项目的一部分。Pandas最初
被作为金融数据分析工具
而开发出来,因此,pandas为时间序列分析
提供了很好的支持。 Pandas的名称
来自于面板数据
(panel data)和python数据分析
(data analysis)。
Pandas
是基于NumPy
的一种工具包,是为解决数据分析任务而创建的。但Numpy只能处理数字,若想处理其他类型的数据,如字符串,就要用到Pandas了。Pandas
纳入了大量库和一些标准的数据模型,提供了高效
地*** 作大型数据集
所需的工具。Pandas
提供了大量能使我们快速便捷
地处理数据
的函数
和方法
,是使Python成为强大而高效的数据分析语言的重要因素之一。- Pandas 可以从各种文件格式比如
CSV
、JSON
、SQL
、MicrosoftExcel
导入数据。 - Pandas 可以对各种数据进行运算 *** 作,比如归并、再成形、选择,还有
数据清洗
和数据加工
特征。 - Pandas 广泛应用在
学术
、金融
、统计学
等各个数据分析领域。
Pandas 的主要数据结构是 Series
(一维数据)与 DataFrame
(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。
-
Series
是一种类似于一维数组的对象,它由一组数据
(各种Numpy数据类型)以及一组与之相关的数据标签(即索引
)组成。
-
DataFrame
是一个表格型的数据结构
,它含有一组有序的列
,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引
也有列索引
,它可以被看做由Series 组成的字典
(共同用一个索引)。
Anaconda可以简单理解为非常多的python库的集合
,包括Conda、Python以及一大堆安装好的工具包
,比如:numpy、pandas等,具有一下特点:
- 包含了众多流行的科学、数学、工程和数据分析的Python库
- 完全开源和免费
- 对于学术用途,可以申请免费的License
- 全平台支持Linux、Windows、Mac OS X
当然,我们可以简单的只安装pandas,但是我们推荐
数据分析的初学者
安装Anaconda
进行学习
在windows中安装anaconda:
(1) 在浏览器的地址栏中输入https://www.anaconda.com/download/进入Anaconda的官方网站下载,或者到历史版本中选择https://repo.anaconda.com/archive/,然后单击你电脑系统所对应版本的应用程序下载。
(2) 采用默认安装路径,在指定完安装路径后,点击下一步窗口会提示是否勾选如下复选框选项,两个都勾选即可。
(3) 安装完以后,在系统左下角的【开始菜单】->【所有程序】中找到Anaconda3文件夹,可以看到该目录下包含了多个组件。
(4) Anaconda Navigator成功打开后的首页界面如下图所示。
通过Anaconda管理Python包
Anaconda集成了常用的扩展包,能够方便地对这些扩展包进行管理,比如安装和卸载包,这些 *** 作都需要依赖conda。
conda是一个在Windows、Mac OS和Linux上运行的开源软件包管理系统和环境管理系统,可以快速地安装、运行和更新软件包及其依赖项。
在Windows系统下,用户可以在Anaconda Prompt
中通过命令检测conda是否被安装。
如果希望快速了解如何使用conda命令管理包,则可以在Anaconda Prompt中输入“conda -h”或“conda --help”命令来查看帮助文档。
使用list命令
可以获取当前环境中已经安装的包信息,执行list命令后,终端会显示当前环境下已安装
的包名
及版本号
。
使用search命令可以查找可供安装的包,该命令中,–full-name为精确查找的参数,后面紧跟的是包的全名
>>> conda search --full-name 包的全名
例如:
如果希望在指定的环境中进行安装,则可以在install 命令的后面显式地指定环境名称。
>>>conda install --name env_name package_name
上述命令中,env_name参数表示包安装的环境名称,package_name表示将要安装的包名称。比如:
如果要在指定的环境中卸载包,则可以在指定环境下使用remove命令进行移除。
>>>conda remove --name env_name package_name
如果要卸载当前环境中的包,可以直接使用remove命令进行卸载。
更新当前环境下所有的包,可使用如下命令完成:
>>> conda update --all
如果只想更新某个包或某些包,则直接在update命令的后面加上包名即可,多个包之间使用空格隔开。
>>> conda update pandas numpy matplotlib
需要注意:
一般来说anaconda是比较大的,因为里面集成了非常多的python包,但我们如果根本不需要那么多的包,就可以安装Miniconda
,它是最小的conda安装环境
,只包含最基本的Python与conda以及相关的必须依赖项。对于空间要求严格的用户,Miniconda是一种选择,它只包含了最基本的库,其它的库需要自己手动安装。
在“开始菜单”中打开Anaconda3目录,找到并单击“Jupyter Notebook”会d出启动窗口,同时,系统默认的浏览器会d出如下页面:
上图是浏览器中打开的Jupyter Notebook主界面,默认打开和保存的目录为C:\Users\当前用户名。
除了上述的启动方式外,还可以用命令行打开,这种方式可以控制Jupyter Notebook的显示和保存路径,是推荐的启动方式。
在主界面中单击右上方的“New”按钮,打开如图所示的下拉列表。
这里我们选择“Python 3”,创建一个基于Python 3的笔记本。
选中单元格,按下“Enter”键进入单元格的编辑模式,此时可以输入任意代码,按shift+enter执行代码:
接着,在新的单元格中输入for循环代码,然后再运行,笔记本的编辑界面如下图所示:
除此之外,还可以修改之前的单元格,对其重新运行。
选中最上面的单元格,单击【Insert】->【Insert Cell Above】在单元格的上方插入一个新的单元格。
也可以添加一些markdown的内容,做解释或注释用,例如:
当然,还能导出很多格式,PDF、HTML等等:
好,接下来就是使用Jupyter导入pandas模块,并创建一个series数据:
Python本身的数据分析功能并不强,需要安装一些第三方的扩展库来增强它的能力,常用的有:
- NumPy
- Pandas
- Matplotlib
- Seaborn
- NLTK
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)