目录
安装 selenium 第三方库
下载浏览器驱动:
需要把这些浏览器驱动放入 Python 应用目录里面的 Script 文件夹里面
① 200 多本 Python 电子书(和经典的书籍)应该有
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且可靠的练手项目及源码)
④ Python基础入门、爬虫、网络开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)
私信我01即可获取大量Python学习资源
每次当selenium启动chrome浏览器的时候,chrome浏览器很干净,没有插件、没有收藏、没有 历史 记录,这是因为selenium在启动chrome时为了保证最快的运行效率,启动了一个裸浏览器,这就是为什么需要配置参数的原因,但是有些时候我们需要的不仅是一个裸浏览器
selenium启动配置参数接收是ChromeOptions类,创建方式如下 :
创建了ChromeOptions类之后就是添加参数,添加参数有几个特定的方法,分别对应添加不同类型的配置项目
常用配置参数:
其他配置项目参数
制作无头浏览器
规避检测
门户网站检测如果是selenium请求的,有可能会拒绝访问。这也是一种反爬机制
实现规避检测
注意:这里只能使用 options 添加
如果有其他的模块要添加,注意要分开添加
元素定位语法
常用语法:
在 element 变成 elements 时,返回符合条件的所有元素组成的数组
控制浏览器大小
浏览器后退,前进
刷新
在搜索框模拟回车 *** 作
在 WebDriver 中, 将这些关于鼠标 *** 作的方法封装在 ActionChains 类提供
ActionChains 类提供了鼠标 *** 作的常用方法:
语法:
想使用selenium中的键盘事件,首先我们必须导入Keys包,需要注意的是包名称Keys首字母需要大写。Keys类中提供了几乎所有的键盘事件包括组合按键如 Ctrl+A、 Ctrl+C 等
使用语法:
其他事件可以通过查看源码获取
显式等待使WebdDriver等待某个条件成立时继续执行,否则在达到最大时长时抛出超时异常
实例:
WebDriverWait类是由WebDirver 提供的等待方法。在设置时间内,默认每隔一段时间检测一次当前页面元素是否存在,如果超过设置时间检测不到则抛出异常
语法:
参数:
如果某些元素不是立即可用的,隐式等待是告诉WebDriver去等待一定的时间后去查找元素。 默认等待时间是0秒,一旦设置该值,隐式等待是设置该WebDriver的实例的生命周期
案例
语法:
alert 里面的方法
WebDriver *** 作cookie的方法:
参考链接: >
举一反三:
那么下拉框如何定位页面元素呢?dom示例:
那么定位去 *** 作它的方法,也应该同多选框 *** 作一直:
@Test
void test_select() throws InterruptedException {
WebElement element = driverfindElement(Byid("fruitselect"));
Select select = new Select(element);
// 下面根据不同方法选择下拉框的值
Threadsleep(2000);
selectselectByIndex(2);
Threadsleep(2000);
selectselectByValue("orange");
Threadsleep(2000);
selectselectByVisibleText(" 苹果 ");
// 遍历集合打印下拉框的所有值
List options = selectgetOptions();
for (WebElement option : options) {
Systemoutprintln("输出单选值:"+optiongetText());
}
}
8、掌握alert、confirm、prompt三种d框处理;这三种d窗的处理方式不出意外都是Alert类来处理。
9、 selenium 三种等待方式的原理及使用场景:强制等待、隐式等待、显示等待;时间同步机制。
10、selenium等待条件,isEnabled()isSelected()源码分析:
比如在某些场景中,需要等待元素出现后才能 *** 作它,这时需要的是等待,至于是哪种等待呢?需要结合实际场景来分析:
// 下面这个 *** 作是先找元素,是否现实,这里有一个条件即使是隐藏元素,它还是存在dom中,而有些隐藏是不一定会存在dom,那么查找元素是会报异常:NoSuchElementException
@Test
public void test_display() throws InterruptedException {
WebElement el = driverfindElement(Byid("displayed-text"));
Systemoutprintln("判断输入框是否显示:" + elisDisplayed());
if (elisDisplayed()) {
elsendKeys("displayed");
Systemoutprintln("点击隐藏按钮,元素被隐藏");
driverfindElement(Byid("hide-textbox"))click();
}
Threadsleep(3000);
WebElement ele = driverfindElement(Byid("displayed-text"));
// 因为知道上面的 *** 作是默认显示,并且输入值,if判断为true表示显示,然后输入文本内容并点击隐藏
if (!eleisDisplayed()) {
// 如果是隐藏的,下面 *** 作显示并输入内容
driverfindElement(Byid("show-textbox"))click();
Systemoutprintln("点击显示按钮,元素被显示");
elesendKeys("+再次打开");
}
Threadsleep(3000);
// 然后再次隐藏
driverfindElement(Byid("hide-textbox"))click();
}
tips:元素的 *** 作,判断状态:isEnabled,判断显示:isDisplayed,判断是否可选:isSelected
11、鼠标 *** 作:单击、双击、右击、键盘输入及组合键的应用;前提是前端开发支持按键 *** 作。
在 web 自动化中,所有键盘 *** 作不一定是支持的,需要前端开发支持。
import orgopenqaseleniumKeys;// 这个是selenium框架的关键类
// 发送单个按键 *** 作,element的sendKeys()方法即可
findElement(Byid("kw"))sendKeys(KeysENTER);
// 如果是组合键,例如control+a
String select=Keyschord(KeysCONTROL,"a");
findElement(Byid("kw"))sendKeys(select);
// 使用Actions类处理按键 *** 作
import orgopenqaseleniuminteractionsActions;
Actions action = new Actions(driver);
actionkeyDown(KeysCONTROL)sendKeys("a")keyUp(KeysCONTROL)perform();
12、需要掌握执行JavaScript的方法和技巧,JavascriptExecutor类:
import orgopenqaseleniumJavascriptExecutor;
import orgopenqaseleniumchromeChromeDriver;
SystemsetProperty("webdriverchromedriver","drivers/chromedriverexe");
driver = new ChromeDriver();
// 下行强制转换
JavascriptExecutor js=(JavascriptExecutor) driver;
13、屏幕截图:实现截屏及日期格式保存
思考:会写在哪个位置?
通常使用TestNG/junit测试框架,会使用@After注解,也就是说在每个 测试 用例执行完才截图,而不是一个测试类执行完才截图,那么就需要对执行的结果进行断言,错误才截图,而不是随意截图。
优先封装一个生成文件名的方法:
/
获取随机字符串作为文件名的长度
@param length
@return
/
public static String getRandomString(int length) {
StringBuilder sb = new StringBuilder();
String characters = "1234567890qwertyuioplkjhgfdsazxcvbnmPOIUYTREWQASDFGHJKLMNBVCXZ";
for (int i = 0; i < length; i++) {
int index = (int) (Mathrandom() characterslength());
sbappend(index);
}
return sbtoString();
}
AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新,这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行局部更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。
因为传统的网页在传输数据格式方面,使用的是 XML 语法,因此叫做 AJAX ,其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据,即使使用了JS将数据渲染到了浏览器中,在 右键->查看网页源代码 还是不能看到通过ajax加载的数据,只能看到使用这个url加载的html代码。
法1:直接分析ajax调用的接口。然后通过代码请求这个接口。
法2:使用Selenium+chromedriver模拟浏览器行为获取数据。
Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver:
现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门:
参考:Selenium的使用
直接直接分析ajax调用的接口爬取
selenium结合lxml爬取
浏览器
定位/ *** 作对象
webdriver 提供了一系列的元素定位方法,常用的有以下几种:
获取单个的:find_element_by_xxx()
获取所有的:find_elements_by_xxx()获取所有的
传数据:send_keys()
点击:click()
清除数据:clear()
提交:submit()
其他常用WebElement方法
获取该对象的尺寸大小:driverfind_element_by_id("kw")size()
获取该对象的文本:driverfind_element_by_id("cp")text
获取该对象的属性:driverfind_element_by_id('su')get_attribute('type')
该对象是否可见(布尔):driverfind_element_by_id("kw")is_displayed()
键盘事件
from seleniumwebdrivercommonkeys import Keys
层级定位
driverfind_element_by_id('xx')find_element_by_link_text('xx')click()
这里用到了二次定位,通过对 Link1 的单击之后,出现下拉菜单,
先定位到下拉菜单,再定位下拉菜
单中的选项。当然,如果菜单选项需要单击,可通过二次定位后也直接跟 click() *** 作。
frame定位
switch_to_frame方法
跳转句柄
select(option)
对这种类型的下拉框一般的处理是两次点击,第一点击d出下拉框,
第二次点击 *** 作元素。当然,也有些下拉框是鼠标移上去直接d出的,
那可以使用 move_to_element()进行 *** 作
文件上传
直接定位file标签sendkeys绝对路径或者相对路径
调用js
execute_script
控制浏览器滚动条
利用js *** 作滚动条实现,但是selenium3中支持自动搜索页面,不需要再 *** 作滚动条来检索标签元素,了解即可
js="var q=documentdocumentElementscrollTop=10000"
driverexecute_script(js)
timesleep(2)
cookie *** 作
获取对象的属性
之前写过几种可能: 在这里
我出现的问题:
第一:没有全屏模式,出现了其他按钮的遮挡
解决方案是:
drivermaximize_window()
第二:滑屏出现了问题
我参考的这一篇文章: selenium_通过selenium控制浏览器滚动条
里面的方法我都实验了一遍 不知道为什么 效果不理想
最後花钱找人解决了问题
driverexecute_script('documentdocumentElementscrollTop={0}'format(9000))
一条金贵的代码
最後附上代码 实现翻页
import time
from seleniumimport webdriver
chrome_options = webdriverChromeOptions()
chrome_optionsadd_argument('--headless')
chrome_optionsadd_argument('--disable-gpu')
chrome_optionsadd_argument("'User-Agent': 'Mozilla/50 (Windows NT 100; Win64; x64) AppleWebKit/53736 (KHTML, like Gecko) Chrome/730368386 Safari/53736'")
driver = webdriverChrome(chrome_options=chrome_options)
driverget(">
1、获取输入框再输入信息的时候,发现send_keys会把内容输入到所获取输入框的隔壁框框(比如下一个框),排查一大通后发现,是因为待输入的数据前面包含个空格(这空格在Excel里还看不出来),send_keys方法会连空格也输入进去,元素定位并没有不准,这空格就是输入“跳框”的元凶。
解决的办法是检查待输入的源数据,strip去掉前后的空格。
2、直接定位元素的方法,比如Xpath和CSS Selector虽然方便,但是用多了程序健壮性会变差。想想也是,比如新开的页面里,按钮多一个少一个,或者顺序位置发生变化,元素就选错了,后面肯定就不按剧本走了。
这时候最好按id、class name来获取,如果不唯一,那就遍历循环判断(比如先找到父元素再遍历各个子元素),虽然程序运行效率会降低一些,但是程序跑起来的时候不容易挂。
关于效率问题其实也不用太纠结,我都纯用Selenium了我还在乎啥效率啊(手动狗头)
3、循环判断筛选元素的时候,get_attribute是个好东东,常见的比如text,scr,甚至onclick事件里的字符串都可以用来做判断。但是切记最好放在try里,遍历虽好,找到个空值就直接挂了。
以上就是关于关于Python的Selenium框架全解,一篇完整的说明书全部的内容,包括:关于Python的Selenium框架全解,一篇完整的说明书、从零开始学python爬虫(八):selenium提取数据和其他使用方法、熟练掌握Selenium工具核心功能总纲(二)等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)