用python怎么提取已经抓取的网页的主要内容

用python怎么提取已经抓取的网页的主要内容,第1张

我这里:

教程抓取网并提取网页中所需要的信息 之 Python版

有代码和注释。

不过,看这个之前,你最好参考:

整理关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项

去了解网站抓取相关的逻辑,然后再参考:

教程手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程

去抓取你所要处理的网站的内在执行逻辑。

(此处不给贴地址,请自己用google搜索帖子标题,即可找到帖子地址)

1

首先,我们需要在自己的电脑上下载一个IETester软件

2

下载之后,我们需要自己进行安装。安装完成之后,双击打开软件。

3

我们可以看到软件的上方有关于新建各个IE浏览器版本的的选项卡。

4

我们点击新建一个IE6,软件就会帮我们新建一个IE6环境下的页面。

5

这时,软件默认打开的一个页面。我们需要将我们需要打开的页面在电脑装的IE浏览器中打开,然后复制到IETester软件中。

6

然后我们点击开发者工具—DebugBar插件,在页面的下方就会出现代码。

7

我们点击DOM中的文档,再点击HTML,就可以查看HTML的代码。下面的style表示元素的样式表。

8

然后我们就可以参照这些内容修改代码了。需要注意使用此软件时,有时IE的某个版本会有卡机的时候,就是不能用,这是正常现象

1在IE浏览器的  设置>internet选项>安全 下 ,将四个区域中启用保护模式的状态保持一致(全部取消勾选或者全部勾选),应用并确定。

2禁用高级中的“启用增强保护模式”

3设置浏览器缩放比例为100%。

4若IE版本为11,则需要修改注册表:win+R-->regedit

*** 作系统为64位的key值为:

HKEY_LOCAL_MACHINE\SOFTWARE\Wow6432Node\Microsoft\Internet Explorer\Main\FeatureControl\FEATURE_BFCACHE

如果key值不存在,就添加。之后在key内部创建一个iexplorerexe,DWORD类型,值为0,如下图所示:

5之后selenium即可打开IE浏览器

由于ie,chrome浏览器的driverServer是由他们自己管理的,我们需要下载相应的驱动,注意区分 32位和64位,使用方法如下:

SystemsetProperty("webdriveriedriver", "src\\main\\resources\\IEDriverexe");

WebDriver driver = new InternetExplorerDriver();

driverget(">

以上就是关于用python怎么提取已经抓取的网页的主要内容全部的内容,包括:用python怎么提取已经抓取的网页的主要内容、Python怎么调用IETester浏览器、python+selenium调用IE:打不开浏览器时的设置等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/10217864.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存