我这里:
教程抓取网并提取网页中所需要的信息 之 Python版
有代码和注释。
不过,看这个之前,你最好参考:
整理关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项
去了解网站抓取相关的逻辑,然后再参考:
教程手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程
去抓取你所要处理的网站的内在执行逻辑。
(此处不给贴地址,请自己用google搜索帖子标题,即可找到帖子地址)
1
首先,我们需要在自己的电脑上下载一个IETester软件。
2
下载之后,我们需要自己进行安装。安装完成之后,双击打开软件。
3
我们可以看到软件的上方有关于新建各个IE浏览器版本的的选项卡。
4
我们点击新建一个IE6,软件就会帮我们新建一个IE6环境下的页面。
5
这时,软件默认打开的一个页面。我们需要将我们需要打开的页面在电脑装的IE浏览器中打开,然后复制到IETester软件中。
6
然后我们点击开发者工具—DebugBar插件,在页面的下方就会出现代码。
7
我们点击DOM中的文档,再点击HTML,就可以查看HTML的代码。下面的style表示元素的样式表。
8
然后我们就可以参照这些内容修改代码了。需要注意使用此软件时,有时IE的某个版本会有卡机的时候,就是不能用,这是正常现象
1在IE浏览器的 设置>internet选项>安全 下 ,将四个区域中启用保护模式的状态保持一致(全部取消勾选或者全部勾选),应用并确定。
2禁用高级中的“启用增强保护模式”
3设置浏览器缩放比例为100%。
4若IE版本为11,则需要修改注册表:win+R-->regedit
*** 作系统为64位的key值为:
HKEY_LOCAL_MACHINE\SOFTWARE\Wow6432Node\Microsoft\Internet Explorer\Main\FeatureControl\FEATURE_BFCACHE
如果key值不存在,就添加。之后在key内部创建一个iexplorerexe,DWORD类型,值为0,如下图所示:
5之后selenium即可打开IE浏览器
由于ie,chrome浏览器的driverServer是由他们自己管理的,我们需要下载相应的驱动,注意区分 32位和64位,使用方法如下:
SystemsetProperty("webdriveriedriver", "src\\main\\resources\\IEDriverexe");
WebDriver driver = new InternetExplorerDriver();
driverget(">
以上就是关于用python怎么提取已经抓取的网页的主要内容全部的内容,包括:用python怎么提取已经抓取的网页的主要内容、Python怎么调用IETester浏览器、python+selenium调用IE:打不开浏览器时的设置等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)