python爬取二手房数据的困难与解决办法_sql

1、首先链家网二手房主页最多只显示100页的房源数据，所以在收集二手房房源信息页面URL地址时会收集不全，导致最后只能采集到部分数据；解决方法是解决措施：将所有二手房数据分区域地进行爬取，100页最多能够显示3000套房，该区域房源少于3000套时可以直接爬取，如果该区域房源超过3000套可以再分成更小的区域。

2、其次爬虫程序如果运行过快，会在采集到两、三千条数据时触发链家网的反爬虫机制，所有的请求会被重定向到链家的人机鉴定页面，从而会导致后面的爬取失败；解决方法是为程序中每次http请求构造header并且每次变换http请求header信息头中USER_AGENTS数据项的值，让请求信息看起来像是从不同浏览器发出的访问请求；爬虫程序每处理完一次http请求和响应后，随机睡眠1-3秒，每请求2500次后，程序睡眠20分钟，控制程序的请求速度。

python爬取链家网友信息一直重复第一行是为获取新信息。通过下述命令爬取链家网公布的思北房源信息，并存储到文件里，python有一套正则表达式，匹配字母数字或下划线，匹配字符串开头。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/6668549.html

python爬取二手房数据的困难与解决办法

发表评论

评论列表（0条）