爬虫程序获取百度知道问题的浏览次数,页面上能看到,但是爬虫得到的html信息里面没有

爬虫程序获取百度知道问题的浏览次数,页面上能看到,但是爬虫得到的html信息里面没有,第1张

浏览器次数是通过额外的请求获取的

请直接向以下url发送请求

其中1885127376818372708为问题的id,该数为当前问题的id,即question后面的那串数字,每次访问,该次数+1

一定要设置User-Agent

urlConnectionsetRequestProperty("User-Agent","Mozilla/40 (compatible; MSIE 60; Windows 2000)");

自动抓取页面生成接口的方法?答:自动抓取页面生成接口的方法:第一步,将web前端页面的表格文件传输到后台并进行分布式存储,保障数据的容灾能力、备份以及后期的d性扩展;

第二步,对表格文件的数据信息进行分析和识别,并添加传入参数;

第三步,将添加传入参数后的数据导入数据库,自动生成接口信息;

第四步,web界面调用自动生成的接口,获取返回的数据信息即可得到查询结果。

我一般爬取时用beautifulsoup与正则结合,这段的话应该用不到正则可以先用beautifulsoup提取出标签中的内容,然后用split相关的方法将空白分隔符分隔的内容分割成列表之后分配给相应的属性

直接执行JS

具体代码

foreach (HtmlElement em in docAll)

{

string str = emGetAttribute("src");

//string str = emName;

if (str Contains ("chaxungif"))//用户名

{

emInvokeMember("onclick");

}

}

以上就是关于爬虫程序获取百度知道问题的浏览次数,页面上能看到,但是爬虫得到的html信息里面没有全部的内容,包括:爬虫程序获取百度知道问题的浏览次数,页面上能看到,但是爬虫得到的html信息里面没有、为什么爬虫程序抓取同一个页面的HTML和实际显示的HTML不同、自动抓取页面生成接口的方法等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9474732.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存