成都房价现在多少?和北京差距很大吗?Pytho爬取了四万套房源!

成都房价现在多少?和北京差距很大吗?Pytho爬取了四万套房源!,第1张

概述 作为一家技术人员,决定用技术解决这个疑问。我们用Python爬取了贝壳网上4万多套的成都在售房源,告诉你最真实的成都房价。

作为一家技术人员,决定用技术解决这个疑问。我们用Python爬取了贝壳网上4万多套的成都在售房源,告诉你最真实的成都房价。

爬虫工作原理

在贝壳网上,成都的在售房源按照区域与地铁线这两个方式做了划分,为了更好的了解各区域房价,我们选择了抓取各区域板块的数据。然后再爬取了各板块内所有的房源数据,除了价格外,还有户型、朝向、电梯、楼层等信息。

进群:548377875  可获取数十套pdf哦!

所有信息都以Excel形式导出,再通过分析计算得出了成都的房价水平。

房源数据分析

本次共爬取49328套成都二手房信息,剔除掉无效的车位信息后,共计收集了有效信息46980条。

值得注意的是,金牛区不仅仅是在售二手房最多,人口老龄化问题也是几大区里比较严重的。

各区域平均房价如下图(单位:元/平米)

高新区与天府新区这两大功能区因近年成都的“南拓”政策房价直线上涨,均价纷纷冲破1.8万元每平米,几乎就要彻底超越传统的五大主城区了。

成都单价最贵十大豪宅:

文末知识点摘要:Python——cookie保存到本地

方法一:

结合cookielib及urllib2,Python2时期比较常用的方法,年代比较久远了。个人觉得太麻烦,改用requests.

▲需要注意的是cookielib在python3中已经改成了http.cookiejar

保存cookie

方法二:

使用requests.cookie

读取cookies

在这里我用的是LWPcookieJar保存在txt文件中,还有个是MozillacookieJar,都是由filecookieJar 派生而来,实现了save()方法,而filecookieJar 没有实现save()

MozillacookieJar (filename,delayload=None,policy=None):从filecookieJar派生而来,创建与Mozilla浏览器 cookies.txt兼容的filecookieJar实例。 LWPcookieJar (filename,policy=None):从filecookieJar派生而来,创建与libwww-perl标准的 Set-cookie3 文件格式兼容的filecookieJar实例。

方法三:

将cookie字典弄成字典形式然后pickle或者Json写入文件中

存储cookie

import requests,Json,pprints = requests.session()s.headers = {...}a = s.get("https://www.baIDu.com")cookies = requests.utils.dict_from_cookiejar(s.cookies)with open(".cook.txt","w") as fp:Json.dump(cookies,fp)pprint.pprint(cookies,wIDth=5)

读取cookie

with open(".cook.txt","w") as fp:load_cookies=son.load(fp)session.cookie = requests.utils.cookiejar_from_dict(load_cookies)

方法四:

将requests.cookie设置为LWPcookieJar、或MozillacookieJar保存session = requests.Session()#创建个 LWPcookieJar对象session.cookies = LWPcookieJar(filename='cook.txt')s.get('https://www.baIDu.com/',headers=headers)session.cookies.save(ignore_discard=True,ignore_expires=True)#如果save()时没有写filename参数,则默认为实例化LWPcookieJar时给的文件名

save()方法的两个重要参数

ignore_discard: save even cookies set to be discarded. ignore_expires: save even cookies that have expired.The file is overwritten if it already exists

ignore_discard的意思是即使cookies将被丢弃也将它保存下来,ignore_expires的意思是如果cookies已经过期也将它保存并且文件已存在时将覆盖

总结方法二和方法四可以看出,就是要将cookie转换成然后save()

简单介绍下cookielib模块作用,科普下实现cookie知识

python3中将cookielib模块改为了http.cookiejar cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。例如可以利用本模块 的cookieJar类的对象来捕获cookie并在后续连接请求时重新发送。coiokIElib模块用到的对象主要有下面几个:cookieJar、 filecookieJar、MozillacookieJar、LWPcookieJar。其中他们的关系如下:

总结

以上是内存溢出为你收集整理的成都房价现在多少?和北京差距很大吗?Pytho爬取了四万套房源!全部内容,希望文章能够帮你解决成都房价现在多少?和北京差距很大吗?Pytho爬取了四万套房源!所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1208752.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存