urlConnection.setRequestProperty("User-Agent","Mozilla/4.0 (compatibleMSIE 6.0Windows 2000)")
我们使用 request 模块获取网页内容的时候,有时候会发现获取的网页内容和网页上不一样,
有些数据并非服务端渲染,而是通过后来加载的数据,某些网站重要的数据会通过Ajax后期加载,
这就分异步传输和异步加载俩个概念。
异步传输模式下,通常在JavaScript中,我们依次检查JavaScript,就会找到真正的网址!
异步加载则是在XHR的选项中获取真实网站地址:
举例豆瓣的影片获取信息:
页面上的内容可以看到,但是爬下来之后却没有:
XHR获取网页加载的内容:
分别检查左边5条记录,就可以看到真实的我们想要的内容。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)