有哪些好用的Python库

有哪些好用的Python库,第1张

Python作为一门胶水语言,第三方库众多,下面我简单介绍几个好用的Python库:

tensorflow

这是谷歌非常著名的一个开源机器学习框架,在业界非常受欢迎,可以灵活、快速的构建大规模机器学习应用(如神经网络等),性能和可移植性都非常不错,支持GPU并行计算,如果你对机器学习比较感兴趣,也想深入了解一下的话,可以学习一下这个框架,非常不错:

pandas

如果你对数据分析比较感兴趣,那么pandas就是一个非常不错的选择,专门为数据分析而建,内置的函数和方法可以快速处理Excel,CSV等文件,而且提供了实时分析功能,代码量更少,使用起来也更方便,对于数据处理来说,是一个非常不错的分析工具:

matplotlib

这是Python的一个数据可视化库,可以快速制作我们常见的图表,如柱状图、饼状图、散点图等,当然,也不仅仅限于这些,还有很多,如果你想画出更多美丽的图表,可以考虑学习一下这个库,非常值得学习,当然,seaborn,pyecharts等这些可视化库也非常不错:

tushare

如果你对金融财经比较感兴趣,想快速获取股票等行情数据,也不想编写复杂的处理代码,那么tushare就是一个非常不错的选择,自动整合了国内大部分金融财经数据,完成了数据从采集、清洗和存储的全过程,只需简单的几行代码就可以实时快速获取到你所想要的数据,免费且开源:

PyQt

这是Python的一个GUI开发库,如果你想快速创建一个桌面GUI程序,想直接拖拽控件布局界面的话,那么PyQt就是一个非常不错的选择,基于Qt的QtDesigner设计工具,你可以直接拖拽Qt大量的控件快速构建出你自己的桌面应用,简单而又快捷:

Kivy

如果你想利用Python开发一个安卓应用,那么kivy就是一个非常不错的选择,这是Python的一个开源、跨平台的GUI库,只需要编写一套代码,即可运行在大部分桌面及移动平台上,包括winsows,linux,ios,android等,非常不错:

scrapy

这是Python的一个爬虫框架,在也就非常受欢迎,如果你想快速的定制自己的爬虫程序,又不想重复的造轮子的话,可以学习一下这个库,只需要添加少量的代码,就可启动属于自己的一个爬虫应用,非常方便:

django

这是一个流行的PythonWeb框架,如果你想快速构建一个自己的web应用,那么这个框架就非常值得学习,成熟稳重,基于MVC模式,使用起来非常方便,当然,也有轻量级的web框架,如flask,tornado等,也都非常不错:

pygame

如果你想快速开发一个小型游戏,又不想低级语言的束缚,可以考虑学习一下这个库,非常简单,只需要少量的代码便可构建一个游戏应用,当然,它也是一个非常不错的GUI库,对于桌面开发来说,也是一个不错的选择:

you-get

这是Python的一个视频、音频下载库,如果你想免费快速下载优酷、B站、腾讯等网站的视频,安装这个库后,只需要简单的一行命令就可直接下载,非常方便,而且还可以在线观看,查看视频文件格式及清晰度等,当然,也可直接下载:

就介绍这10个不错的Python库吧,对于日常学习开发来说,非常不错,当然,还有许多其他好用的Python库,这个可以到网上搜索一下,非常多,也欢迎大家留言补充。

前面介绍过实用的效率小工具,真的帮了我很多忙,这次给小伙伴们再种草一些数据源网站。

现在有很多免费的数据可以供使用分析,不过很少有人能找的到,或者没能力找,这就是所谓的信息差吧。其实数据获取分为两方面,一是“拿来的”数据,也就是现成的;二是“爬来的”数据,这种一般通过爬虫等手段去采集数据。

“拿来的”数据可以在各大官方平台或者社区去找,一般各行各业都会有自己的数据库。我常用的数据网站有以下这些:

百度指数: 百度搜索汇总的数据,能看到各种关键词的搜索热度趋势,优点数据量大,能反映真实的话题热度变化,适合做需求洞察、用户画像、舆情监测、市场分析。

百度指数规则,是以网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权和。

微信指数: 微信生态的大数据,反映关键词热度,和百度指数类似。但微信指数数据来源微信各种内容渠道,包括搜一搜、视频号、公众号等,适合做微信生态人群画像、内容推广、舆情监控的研究。

Google Trends: 和百度指数类似的产品,基于google生态汇总的大数据。比百度数据来源更丰富也更广泛,包含了google、youtube等,毕竟是全球应用。缺点是对国内搜索分析的指导意义不大,还是百度指数更具指导意义。

微博指数: 微博内容提及量、阅读量、互动量加权得出的综合指数,优点比较有时效性,而且数据基数大,可以实时反映热度变化情况,适合实时捕捉当前 社会 热点事件、热点话题等,快速响应舆论走向等。

这种数据包含了网站、APP、自媒体账号等监测数据,大多是商业付费类

Alexa: 用于查询全球网站排名和流量的平台,可以看到PV、UV、排名、区域分布等信息。

新榜: 新媒体专属的数据平台,用于查看抖音、快手、公众号、小红书等平台KOL账号的数据。数据包括了粉丝、浏览、互动、声量等,一般用于广告投放监测、自媒体数据运营等。

猫眼数据: 影视相关数据。汇总了**票房、网播热度、电视收视等数据,适合做票房预测、节目热度监测。

艾瑞指数: APP、Web、手机等排行榜数据,包括各大移动设备装机指数、APP热度指数、PC Web热度指数、网络广告指数等等,适合做广告营销投放等。

新浪 财经 数据中心:新浪 财经 大数据,汇总了股票、基金、期货、黄金、货币等各种 财经 数据,种类很齐全,应该有数据接口。

Wind:国内比较早的金融数据服务商,数据种类最齐全,而且有各种金融分析工具,也支持Python、R等量化分析。但Wind很贵,个人很难承担的起。

Tushare: 免费的金融数据库,支持Python接口,数据也非常齐全,包含了股票、基金、期权、债券、外汇、公司报表等各种 财经 数据。只要你会用Python,就可以调用里面的各种数据,非常便捷。

这种一般包含政府开放数据、统计数据,以及各种民生数据。

国家统计局: 最权威的国内宏观数据网站,包括人口、经济、农业等等。

上海公共数据开放平台: 上海市各行各业的免费数据,对公众开放下载,非常适合做城市规划分析。

其他城市官方数据:

这一类数据适合做机器学习、统计分析、算法研究等,是学术界、工业界用于数据驱动业务典型数据。

kaggle: 全球最大的数据科学比赛平台,也是google旗下的产品。kaggle拥有丰富的数据集和各种解决方案,适合对数据感兴趣的小伙伴去研究学习。

天池: 阿里云里面的数据比赛平台,也拥有很多比赛数据,质量相对较高。

数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。下面就一起看下常用六大步完成数据预处理。

Step 1:导入相关模块

Step 2:获取数据

特征构造

Step 3:处理缺失值

Step 4:分类数据编码

创建虚拟变量

Step 5:划分训练集和测试集

Step 6:特征标准化

数据变换十大秘诀

数据变换[1]是将数据集的每个元素乘以常数;也就是说,将每个数变换为,其中,和都是实数。数据变换将可能改变数据的分布以及数据点的位置。

数据标准化[2](有时称为 z-score 或 standar score)是已重新缩放为平均值为零且标准偏差为1的变量。对于标准化变量,每种情况下的值在标准化变量上的值都表明它与原始变量的均值(或原始变量的标准偏差)的差值。

归一化数据 是将数据缩放到0到1范围内。

Binarizing Data

二值化[3]是将任何实体的数据特征转换为二值化的向量以使分类器算法更高效的过程。在一个简单的示例中,将图像的灰度从0-255光谱转换为0-

1 光谱就是二值化。

Mean Removal

去均值法 是将均值从每一列或特征中移除,使其以零为中心的过程。

One Hot Encoding

独热编码[4]是将分类变量转换为可以提供给ML算法以更好地进行预测的形式的过程。

Label Encoding

标签编码 适用于具有分类变量并将数据转换为数字的数据。

fit

transform

词向量 用于带有标签和数字的数据。此外,词向量可用于提取数据。

获取特征名称

Polynomial Features

多项式特征 用于生成多项式特征和交互特征。它还生成了一个新的特征矩阵数据,该数据是由所有次数小于或等于指定次数的特征的多项式组合组成的。

截距项

填补 (如用均值填补缺失值),它用列或特性数据中的平均值替换缺失的值

Tushare简介

Tushare金融大数据开放社区,免费提供各类金融数据和区块链数据,助力智能投资与创新型投资。网址:>

财经数据接口包tushare,主要实现对股票等金融数据的数据采集,清洗加工和数据存储,返回的Pandas DataFrame数据类型方便用numpy, matplotlib进行数据分析,同时兼容Python2和3,免费。

tushare的基本面类数据全部来自新浪财经,常用函数式get_stock_basics()获取沪深股票列表。

笔者用的Python38,直接 pip install tushare 会出现版本匹配问题。如下图:

-------------------------------------10月13日更新-------------------------------------

现在很多tushare的旧版本API已经不能用了,建议到官网去注册个账号,升级下版本,用pro版的tushare。

吐槽一下新用户啥都不能干,填好了个人信息只能调个日线,IPO新股还有央视新闻。

fields 就是输出参数。通过查询相关资料显示在代码中fields 就是输出参数。Tushare是一个免费、开源的python财经数据接口包,主要实现对股票等金融数据从数据采集、清洗加工 到、数据存储的过程,数据多样易获取,在数据分析,机器学习,股票预测等领域都可以被广泛的应用。

查看详细财务报表,有以下几种方式:

在线量化研究平台,BigQuant - 你的人工智能量化平台,可以获取常用的关键财务数据,并且能够返回标准化的整理好了的多只股票多年时间的财务数据,可以直接拿来开发策略。

直接去上市公司网站获取财务报表,一般为pdf格式。

在新浪财经、东方财富、同花顺财经网站上获取上市公司财务报表,一般都有财务报告全文。

在数据商那里获取财务报表,比如Wind资讯--中国领先的金融数据和分析工具服务商。

一些开源的数据包获取财务信息,如TuShare -财经数据接口包,只不过不是详细的财务报表,而是关键的财务数据。

通过关键指标快速把握公司财务的方法:

一、先看业务,具体看“营业收入增长率”、销售毛利率、净利润增长率这3个指标。

通过营业收入增长率可以看出公司的营收是在增长还是下滑,判断业务扩张性;通过销售毛利率可以反映公司主营业务是否健康;通过净利润增长率可以分析公司整体经营盈利能力强弱。

二、其次看资产和现金流,具体看资产负债率、经营活动产生的现金流净额这2个指标。

通过资产负债率可以判断公司资产健康情况,这涉及到举债是否过度,或者依旧稳健;通过经营活动产生的现金流净额,可以判断公司经营现金流充裕情况,现金流不断裂是一家公司存活的关键保证。

三、最后,分析净资产收益率ROE指标。

净资产收益率是一个很有效的判断公司价值的指标,也被很多投资大佬推崇,比如巴菲特就曾特意强调过。

具体的使用方法比如:从全部上市公司中筛选出连续10(或者5)年以上,每年净资产收益率都保持在15%以上的股票,那筛选出来的这些,就是公司经营一贯稳定、业绩持续增长的优质标的。

这样,也就通过6个指标,就可以掌握了上市公司财报的基本情况,对公司财务做出基本的判断了。

以上就是关于有哪些好用的Python库全部的内容,包括:有哪些好用的Python库、常用的15个数据源网站,可以满足你95%的日常取数需求!赶紧收藏、教你如何用python6个步骤搞定金融数据挖掘预处理等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9688540.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存