Python怎么把集合中有空缺数据的部分提取出来

Python怎么把集合中有空缺数据的部分提取出来,第1张

1、导入需要使用的库,读取并创建数据表取名loandata。

2、在开始提取数据前,先将member_id列设置为索引字段,然后开始提取数据。

3、按行和列提取信息,把前面两部的查询条件放在一起,查询Python特定用户的特定集合信息。

4、应用相关集合函数,通过索引解决提取问题。信息汇总实现空缺数据的部分提取出来。

以下代码调试通过:

import pandas as pd

import json

 

demo = '{"programmers": [{"firstName": "Brett","lastName": "McLaughlin","email": "aaaa"}, { "firstName": "Jason","lastName": "Hunter","email": "bbbb"}, {"firstName":"Elliotte","lastName": "Harold","email": "cccc"}],"authors": [{"firstName": "Isaac","lastName": "Asimov","genre": "sciencefiction"}, {"firstName": "Tad","lastName": "Williams","genre": "fantasy"}, {"firstName": "Frank","lastName": "Peretti","genre": "christianfiction"}],"musicians": [{"firstName": "Eric", "lastName": "Clapton","instrument": "guitar"}, {"firstName": "Sergei","lastName": "Rachmaninoff","instrument": "piano"}]}'

demojs = jsonloads(demo)

print('\n', 'demojs: ', demojs)

Aurdata = pdDataFrame(demojs['authors'])

print('\n', 'Aurdata:\n', Aurdata)

使用Python做爬虫是很广泛的应用场景,那就涉及到了Python是如何获取接口数据的呢?Python拥有很多很强大的类库,使用urllib即可轻松获取接口返回的数据。

展开

工具原料Python开发工具url接口,用于请求获取数据

方法/步骤分步阅读

1

/4

首先新建一个py文件,导入所需的类库,urllib,json等。

2

/4

声明api的url地址,和构造请求头。

3

/4

使用urlopen方法发起请求并获取返回的数据。

4

/4

最后就是对返回字符串的处理了。比如字符串的截取,字符串的转换成json对象,转换成字段,再获取对应key的值。

使用Python3实现>

这个案例主要目的是转换json类型的数据,利用python和pandas方法进行计数。

step1:获取数据

将json格式数据转化成python对象

step2纯python时区计数

1获取时区+计数

2对以上字典形式进行计数

3更更简单的方法,直接用python标准库的collectionsCounters类

从仅获取时区后开始

step3 使用pandas计数

step4 可视化 seaborn

5补充一些语句

将二进制再转成字符就行了

>>> aa= b"<td>\xe4\xb8\x9c\xe5\x9f\x8e\xe5\xa4\xa9\xe5\x9d\x9b</td><td>184</td><td>\xe8\x87\xad\xe6\xb0\xa7</td><td>4</td><td>\xe4\xb8\xad\xe5\xba\xa6\xe6\xb1\xa1\xe6\x9f\x93</td>"

>>> bb = aadecode("utf-8")encode("gb2312")

>>> bbdecode("gb2312")

'<td>东城天坛</td><td>184</td><td>臭氧</td><td>4</td><td>中度污染</td>'

>>>

顶级 read_html() 函数可以接受 HTML 字符串、文件或URL,并将 HTML 表解析为 pandas DataFrames 列表。

注意 :即使 HTML 内容中仅包含一个表, read_html 也会返回 DataFrame 对象的列表

让我们看几个例子

读入 banklisthtml 文件的内容,并将其作为字符串传递给 read_html

如果愿意,您甚至可以传入 StringIO 的实例

读取 URL 并匹配包含特定文本的表

指定一个标题行(默认情况下 <th> 或 <td> 位于 <thead> 中的元素用于形成列索引,如果 <thead> 中包含多个行,那么创建一个多索引)

指定索引列

指定要跳过的行数:

使用列表指定要跳过的行数( range 函数也适用)

指定一个 HTML 属性

指定应转换为 NaN 的值

指定是否保持默认的 NaN 值集

可以为列指定转换器。这对于具有前导零的数字文本数据很有用。

默认情况下,将数字列转换为数字类型,并且前导零会丢失。为了避免这种情况,我们可以将这些列转换为字符串

组合上面的选项

读取 to_html 的输出(会损失浮点数的精度)

当只提供了一个解析器时,如果解析失败, lxml 解析器会抛出异常,最好的方式是指定一个解析器列表

但是,如果安装了 bs4 和 html5lib 并传入 None 或 ['lxml','bs4'] ,则解析很可能会成功。

DataFrame 对象有一个实例方法 to_html ,它将 DataFrame 的内容呈现为 html 表格。

函数参数与上面描述的方法 to_string 相同。

columns 参数将限制显示的列

float_format 参数控制浮点值的精度

bold_rows 默认情况下将使行标签加粗,但你可以关闭它

classes 参数提供了给 HTML 表 设置 CSS 类的能力。

请注意,这些类附加到现有的 dataframe 类之后

render_links 参数提供了向包含 url 的单元格添加超链接的能力

最后, escape 参数允许您控制 HTML 结果中是否转义了 "<" 、 ">" 和 "&" 字符(默认情况下为 True )。

因此,要获得没有转义字符的 HTML ,请传递 escape=False

转义

不转义

在某些浏览器上这两个 HTML 表可能并不会显示出差异。

在顶级 pandas io 函数 read_html 中,用于解析 HTML 表的库存在一些问题

以上就是关于Python怎么把集合中有空缺数据的部分提取出来全部的内容,包括:Python怎么把集合中有空缺数据的部分提取出来、python怎么从返回的网页中获取数据、python怎么获取需要登陆的接口的数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9709655.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存