关于Python的Selenium框架全解,一篇完整的说明书

关于Python的Selenium框架全解,一篇完整的说明书,第1张

目录

安装 selenium 第三方库

下载浏览器驱动:

需要把这些浏览器驱动放入 Python 应用目录里面的 Script 文件夹里面

① 200 多本 Python 电子书(和经典的书籍)应该有

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且可靠的练手项目及源码)

④ Python基础入门、爬虫、网络开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)

私信我01即可获取大量Python学习资源

每次当selenium启动chrome浏览器的时候,chrome浏览器很干净,没有插件、没有收藏、没有 历史 记录,这是因为selenium在启动chrome时为了保证最快的运行效率,启动了一个裸浏览器,这就是为什么需要配置参数的原因,但是有些时候我们需要的不仅是一个裸浏览器

selenium启动配置参数接收是ChromeOptions类,创建方式如下 :

创建了ChromeOptions类之后就是添加参数,添加参数有几个特定的方法,分别对应添加不同类型的配置项目

常用配置参数:

其他配置项目参数

制作无头浏览器

规避检测

门户网站检测如果是selenium请求的,有可能会拒绝访问。这也是一种反爬机制

实现规避检测

注意:这里只能使用 options 添加

如果有其他的模块要添加,注意要分开添加

元素定位语法

常用语法:

在 element 变成 elements 时,返回符合条件的所有元素组成的数组

控制浏览器大小

浏览器后退,前进

刷新

在搜索框模拟回车 *** 作

在 WebDriver 中, 将这些关于鼠标 *** 作的方法封装在 ActionChains 类提供

ActionChains 类提供了鼠标 *** 作的常用方法:

语法:

想使用selenium中的键盘事件,首先我们必须导入Keys包,需要注意的是包名称Keys首字母需要大写。Keys类中提供了几乎所有的键盘事件包括组合按键如 Ctrl+A、 Ctrl+C 等

使用语法:

其他事件可以通过查看源码获取

显式等待使WebdDriver等待某个条件成立时继续执行,否则在达到最大时长时抛出超时异常

实例:

WebDriverWait类是由WebDirver 提供的等待方法。在设置时间内,默认每隔一段时间检测一次当前页面元素是否存在,如果超过设置时间检测不到则抛出异常

语法:

参数:

如果某些元素不是立即可用的,隐式等待是告诉WebDriver去等待一定的时间后去查找元素。 默认等待时间是0秒,一旦设置该值,隐式等待是设置该WebDriver的实例的生命周期

案例

语法:

alert 里面的方法

WebDriver *** 作cookie的方法:

参考链接: >

举一反三:

那么下拉框如何定位页面元素呢?dom示例:

那么定位去 *** 作它的方法,也应该同多选框 *** 作一直:

@Test

void test_select() throws InterruptedException {

WebElement element = driverfindElement(Byid("fruitselect"));

Select select = new Select(element);

// 下面根据不同方法选择下拉框的值

Threadsleep(2000);

selectselectByIndex(2);

Threadsleep(2000);

selectselectByValue("orange");

Threadsleep(2000);

selectselectByVisibleText(" 苹果 ");

// 遍历集合打印下拉框的所有值

List options = selectgetOptions();

for (WebElement option : options) {

Systemoutprintln("输出单选值:"+optiongetText());

}

}

8、掌握alert、confirm、prompt三种d框处理;这三种d窗的处理方式不出意外都是Alert类来处理。

9、 selenium 三种等待方式的原理及使用场景:强制等待、隐式等待、显示等待;时间同步机制。

10、selenium等待条件,isEnabled()isSelected()源码分析:

比如在某些场景中,需要等待元素出现后才能 *** 作它,这时需要的是等待,至于是哪种等待呢?需要结合实际场景来分析:

// 下面这个 *** 作是先找元素,是否现实,这里有一个条件即使是隐藏元素,它还是存在dom中,而有些隐藏是不一定会存在dom,那么查找元素是会报异常:NoSuchElementException

@Test

public void test_display() throws InterruptedException {

WebElement el = driverfindElement(Byid("displayed-text"));

Systemoutprintln("判断输入框是否显示:" + elisDisplayed());

if (elisDisplayed()) {

elsendKeys("displayed");

Systemoutprintln("点击隐藏按钮,元素被隐藏");

driverfindElement(Byid("hide-textbox"))click();

}

Threadsleep(3000);

WebElement ele = driverfindElement(Byid("displayed-text"));

// 因为知道上面的 *** 作是默认显示,并且输入值,if判断为true表示显示,然后输入文本内容并点击隐藏

if (!eleisDisplayed()) {

// 如果是隐藏的,下面 *** 作显示并输入内容

driverfindElement(Byid("show-textbox"))click();

Systemoutprintln("点击显示按钮,元素被显示");

elesendKeys("+再次打开");

}

Threadsleep(3000);

// 然后再次隐藏

driverfindElement(Byid("hide-textbox"))click();

}

tips:元素的 *** 作,判断状态:isEnabled,判断显示:isDisplayed,判断是否可选:isSelected

11、鼠标 *** 作:单击、双击、右击、键盘输入及组合键的应用;前提是前端开发支持按键 *** 作。

web 自动化中,所有键盘 *** 作不一定是支持的,需要前端开发支持。

import orgopenqaseleniumKeys;// 这个是selenium框架的关键类

// 发送单个按键 *** 作,element的sendKeys()方法即可

findElement(Byid("kw"))sendKeys(KeysENTER);

// 如果是组合键,例如control+a

String select=Keyschord(KeysCONTROL,"a");

findElement(Byid("kw"))sendKeys(select);

// 使用Actions类处理按键 *** 作

import orgopenqaseleniuminteractionsActions;

Actions action = new Actions(driver);

actionkeyDown(KeysCONTROL)sendKeys("a")keyUp(KeysCONTROL)perform();

12、需要掌握执行JavaScript的方法和技巧,JavascriptExecutor类:

import orgopenqaseleniumJavascriptExecutor;

import orgopenqaseleniumchromeChromeDriver;

SystemsetProperty("webdriverchromedriver","drivers/chromedriverexe");

driver = new ChromeDriver();

// 下行强制转换

JavascriptExecutor js=(JavascriptExecutor) driver;

13、屏幕截图:实现截屏及日期格式保存

思考:会写在哪个位置?

通常使用TestNG/junit测试框架,会使用@After注解,也就是说在每个 测试 用例执行完才截图,而不是一个测试类执行完才截图,那么就需要对执行的结果进行断言,错误才截图,而不是随意截图。

优先封装一个生成文件名的方法:

/

获取随机字符串作为文件名的长度

@param length

@return

/

public static String getRandomString(int length) {

StringBuilder sb = new StringBuilder();

String characters = "1234567890qwertyuioplkjhgfdsazxcvbnmPOIUYTREWQASDFGHJKLMNBVCXZ";

for (int i = 0; i < length; i++) {

int index = (int) (Mathrandom() characterslength());

sbappend(index);

}

return sbtoString();

}

AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新,这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行局部更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。

因为传统的网页在传输数据格式方面,使用的是 XML 语法,因此叫做 AJAX ,其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据,即使使用了JS将数据渲染到了浏览器中,在 右键->查看网页源代码 还是不能看到通过ajax加载的数据,只能看到使用这个url加载的html代码。

法1:直接分析ajax调用的接口。然后通过代码请求这个接口。

法2:使用Selenium+chromedriver模拟浏览器行为获取数据。

Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver:

现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门:

参考:Selenium的使用

直接直接分析ajax调用的接口爬取

selenium结合lxml爬取

浏览器

定位/ *** 作对象

webdriver 提供了一系列的元素定位方法,常用的有以下几种:

获取单个的:find_element_by_xxx()

获取所有的:find_elements_by_xxx()获取所有的

传数据:send_keys()

点击:click()

清除数据:clear()

提交:submit()

其他常用WebElement方法

获取该对象的尺寸大小:driverfind_element_by_id("kw")size()

获取该对象的文本:driverfind_element_by_id("cp")text

获取该对象的属性:driverfind_element_by_id('su')get_attribute('type')

该对象是否可见(布尔):driverfind_element_by_id("kw")is_displayed()

键盘事件

from seleniumwebdrivercommonkeys import Keys

层级定位

driverfind_element_by_id('xx')find_element_by_link_text('xx')click()

这里用到了二次定位,通过对 Link1 的单击之后,出现下拉菜单,

先定位到下拉菜单,再定位下拉菜

单中的选项。当然,如果菜单选项需要单击,可通过二次定位后也直接跟 click() *** 作。

frame定位

switch_to_frame方法

跳转句柄

select(option)

对这种类型的下拉框一般的处理是两次点击,第一点击d出下拉框,

第二次点击 *** 作元素。当然,也有些下拉框是鼠标移上去直接d出的,

那可以使用 move_to_element()进行 *** 作

文件上传

直接定位file标签sendkeys绝对路径或者相对路径

调用js

execute_script

控制浏览器滚动条

利用js *** 作滚动条实现,但是selenium3中支持自动搜索页面,不需要再 *** 作滚动条来检索标签元素,了解即可

js="var q=documentdocumentElementscrollTop=10000"

driverexecute_script(js)

timesleep(2)

cookie *** 作

获取对象的属性

之前写过几种可能: 在这里

我出现的问题:

第一:没有全屏模式,出现了其他按钮的遮挡

解决方案是:

drivermaximize_window()

第二:滑屏出现了问题

我参考的这一篇文章: selenium_通过selenium控制浏览器滚动条

里面的方法我都实验了一遍   不知道为什么 效果不理想

最後花钱找人解决了问题

driverexecute_script('documentdocumentElementscrollTop={0}'format(9000))

一条金贵的代码

最後附上代码  实现翻页  

import time

from seleniumimport webdriver

chrome_options = webdriverChromeOptions()

chrome_optionsadd_argument('--headless')

chrome_optionsadd_argument('--disable-gpu')

chrome_optionsadd_argument("'User-Agent': 'Mozilla/50 (Windows NT 100; Win64; x64) AppleWebKit/53736 (KHTML, like Gecko) Chrome/730368386 Safari/53736'")

driver = webdriverChrome(chrome_options=chrome_options)

driverget(">

1、获取输入框再输入信息的时候,发现send_keys会把内容输入到所获取输入框的隔壁框框(比如下一个框),排查一大通后发现,是因为待输入的数据前面包含个空格(这空格在Excel里还看不出来),send_keys方法会连空格也输入进去,元素定位并没有不准,这空格就是输入“跳框”的元凶。

解决的办法是检查待输入的源数据,strip去掉前后的空格。

2、直接定位元素的方法,比如Xpath和CSS Selector虽然方便,但是用多了程序健壮性会变差。想想也是,比如新开的页面里,按钮多一个少一个,或者顺序位置发生变化,元素就选错了,后面肯定就不按剧本走了。

这时候最好按id、class name来获取,如果不唯一,那就遍历循环判断(比如先找到父元素再遍历各个子元素),虽然程序运行效率会降低一些,但是程序跑起来的时候不容易挂。

关于效率问题其实也不用太纠结,我都纯用Selenium了我还在乎啥效率啊(手动狗头)

3、循环判断筛选元素的时候,get_attribute是个好东东,常见的比如text,scr,甚至onclick事件里的字符串都可以用来做判断。但是切记最好放在try里,遍历虽好,找到个空值就直接挂了。

以上就是关于关于Python的Selenium框架全解,一篇完整的说明书全部的内容,包括:关于Python的Selenium框架全解,一篇完整的说明书、从零开始学python爬虫(八):selenium提取数据和其他使用方法、熟练掌握Selenium工具核心功能总纲(二)等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9730548.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存