如何用python爬取一个网站的评论数据_框架

假如一个商品全部评论数据为20w+ 默认好评15w+ 这15w+的默认好评就会不显示出来。那么我们可以爬取的数据就只剩下5w+ 接下来我们就分别爬取全部好评好评中评差评追加评价但是就算这些数据加起来也仍然不足5w+ 上文的博主猜测可能有两点原因：

1出现了数据造假，这个数字可能是刷出来的

2真的有这么多的评论，但这时候系统可能只显示其中比较新的评论，而对比较旧的评论进行了存档。

在博主理论的基础上我也进行了很多相应的测试，就是说无论如何我们最终都爬不到剩下的5w条数据只能爬取一部分但这一部分数据也将近上千多条如果有小伙伴能爬取下更多欢迎补充。

整体思路

全部评价好评中评差评追加评价的网址都是涉及到一定的参数的只要修改网页的数据在遍历页码即可完成全部的爬取。

以下代码在 py2 下运行通过：

import urllib2

req = urllib2Request('

运行效果：

以下代码调试通过：

import pandas as pd

import json

demo = '{"programmers": [{"firstName": "Brett","lastName": "McLaughlin","email": "aaaa"}, { "firstName": "Jason","lastName": "Hunter","email": "bbbb"}, {"firstName":"Elliotte","lastName": "Harold","email": "cccc"}],"authors": [{"firstName": "Isaac","lastName": "Asimov","genre": "sciencefiction"}, {"firstName": "Tad","lastName": "Williams","genre": "fantasy"}, {"firstName": "Frank","lastName": "Peretti","genre": "christianfiction"}],"musicians": [{"firstName": "Eric", "lastName": "Clapton","instrument": "guitar"}, {"firstName": "Sergei","lastName": "Rachmaninoff","instrument": "piano"}]}'

demojs = jsonloads(demo)

print('\n', 'demojs: ', demojs)

Aurdata = pdDataFrame(demojs['authors'])

print('\n', 'Aurdata:\n', Aurdata)

数据的基本信息存放于近1万个页面上，每个页面上10条记录。如果想获取特定数据记录的详细信息，需在基本信息页面上点击相应记录条目，跳转到详细信息页面。详细信息页面的地址可从基本信息页面里的href属性获取。

以上就是关于如何用python爬取一个网站的评论数据全部的内容，包括:如何用python爬取一个网站的评论数据、python怎样抓取网页中的文字和数字数据、python怎么从返回的网页中获取数据等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9588635.html

如何用python爬取一个网站的评论数据

发表评论

评论列表（0条）