2021-03-02

2021-03-02,第1张

概述数据分析概述信息数量爆炸大数据时代数据来源互联网(社交搜索电商)移动互联网(微博)物联网(传感器智慧地球)车联网GPS医学影像安全监控金融(银行股市保险)电信(通信短信)作用帮助企业和个人预测未来的趋势和行为,使得商务和生产生活具有前瞻性(淘宝推送)什么是数据分 数据分析概述信息数量爆炸 大数据时代数据来源互联网(社交 搜索 电商) 移动互联网(微博) 物联网(传感器 智慧地球)
车联网 GPS 医学影像 安全监控 金融(银行 股市 保险) 电信(通信 短信)作用帮助企业和个人预测未来的趋势和行为,使得商务和生产生活具有前瞻性(淘宝推送)什么是数据分析数据分析就是使用适当的统计分析方法(如聚类分析、相关分析等)对收集来的大量数据进行分析,从中提取有用的信息和规律形成结论,并加以详细研究和概括总结的过程数据分析的目的在于将隐藏在一大批看似杂乱无章的数据信息中的有用数据集提炼出来。以找出研究对象的内在规律。在统计学领域中可以分为三大类:描述性数据分析:从一组数据中可以摘要并且描述这份数据的集中和离散情形探索性数据分析:从海量数据中找出规律,并产生分析模型和研究假设验证性数据分析:验证科研假设测试所需的体哦阿健是否达到,以保证验证性分析的可靠性常见分析方法描述性分析隶属于初级分析常见分析方法有:对比分析法、平均分析法、交叉分析法探索性和验证性隶属于高级数据分析常见方法有:相关分析、因子分析、回归方程等数据分析的基本流程明确目的和思路数据收集数据处理数据分析数据展示创建新的Python环境 AnacondaAnaconda 特点包含了众多流行的科学数学工程和数据分析的python库完全开源和免费额外的加速和优化是收费的,但对于学术用途,可以申请免费的license全平台支持linux、windows、mac os x,支持python2.6 2.7 3.4 3.5 3.6,可以自由切换Anaconda 组件说明Anaconda Nanigator:用于管理工具包和环境的图行用户界面,后续涉及的众多管理命令也可以在Navigator中手动实现Anaconda Prompt: Anaconda自带的命令行Jupyter Notebook: 基于web的交互式计算环境 可以编辑易于人们阅读的文档,用于展示数据分析的过程。spyder:一个使用python语言、跨平台的科学继承开发环境通过Anaonda管理python包打开Anaconda Prompt工具

检测conda是否被安装 如果安装成功 返回安装版本

conda --version

查看当前环境中已经安装的包

conda List

使用search查找可供安装的包

conda search --full-name 包的全名

使用install安装包

conda install --name env_name(环境) package_name(包名)如果无法使用conda安装 可以在windows环境中使用pip安装包,格式为pip install package_name

使用remove卸载包

conda remove --name env_name package_name

使用update更新包

Conda update --all (全部更新)conda update numpy (更新numpy包)conda update pandas matplotlib numpy(更新三个包)启用 jupyter notebook如果打不开jupyter notebook

打开方式

在开始菜单中打开使用cmd输入jupyter notebook打开(可以选择打开的文件夹位置 或者说保存的位置)jupyter notebook的基本使用方法shift+enter 运行运行1+2的结果前有out[1],运行range print结果前没有out,是因为调用了print函数,直接打印没有返回值设置标题 点击单元格 选择单元格格式 更改为标题 #一级标题 ##二级标题导出功能 file-Download as + 格式常见的数据分析工具numpy库: 高级维度数组与矩阵运算快速高效的多维数据对象ndarray高性能科学计算和数据分析的基础包多维数组(矩阵)具有矢量运算能力,快速且节省空间矩阵运算。无需循环即可完成类似Matlab中的矢量运算线性代数、随机数生成以及傅里叶变换功能pandas库:基于Numpy的数据分析包,他是为了解决数据分析任务而创建的一个快速高效的DataFrame对象,具有默认和自定义的索引用于在数据结构和不同文件格式中读取和写入数据,比如文本文件、EXCEL sql等只能数据对齐和缺失数据的集成处理基于标签切片和花式索引获取数据集的子集可以删除或插入来自数据结构的列按数据分组进行聚合和转换高性能的数据合并和连接时间序列功能Matplotlib库:在python中绘制数组的2D图形库,虽然他起源于模仿matlab的图行命令,但他独立于matlabseaborn库:基于Matplotlib的数据可视化工具,提供了很多高层封装的函数,帮助数据分析人员快速绘制美观的数据图形NLTK库:被称为使用python进行教学和计算机语言学工作的绝佳工具,以及用自然语言进行游戏的神奇图书馆 用于构建人类语言数据的python程序 他为超过50各语料库和词汇资源(如wordNet)提供了易于使用的接口,还提供了一套文本处理库,用于分类、标记化、词干化、解析和语义推理、NLP库的包装器和一个活跃的讨论论坛总结:数据分析背景用途流程,认识Anaconda,管理python包,启用jupyter notebook,认识一些常见的数据分析工具 总结

以上是内存溢出为你收集整理的2021-03-02全部内容,希望文章能够帮你解决2021-03-02所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1189101.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存