Selenium爬虫的简单总结_PHP

爬虫项目的简单总结

上面两个文章主要展示了两个Selenium爬虫的具体程序，对于中间遇到的小的问题和具体内容的实现在这里进行简单的介绍和总结。

1、通过Cookie实现网站登陆

保存Cookie

## 保存网站cookie

from selenium import webdriver
import os
import time
import json


## 获取Cookie
def get_cookies(url,filepath):
    browser = webdriver.Chrome()
    browser.get(url)
    ## 扫码
    time.sleep(20)
    dictCookies = browser.get_cookies()
    #  转换成字符串保存
    jsonCookies = json.dumps(dictCookies)
    with open("./json/cookies.json", 'w') as f:
        f.write(jsonCookies)
    print('cookies保存成功！')
    browser.quit()

log_url = 'https://www.zhipin.com/?city=100010000&ka=city-sites-100010000'
file = './json/bosscookies.json'
get_cookies(log_url,file)

测试Cookie

# !/usr/bin/python3.4
# -*- coding: utf-8 -*-
## 实现登陆
from selenium import webdriver
import os
import time
import json

def getCookie(browser,url):
    with open('./json/cookies.json', 'r', encoding='utf8') as f:
              listCookies = json.loads(f.read())
    for cookie in listCookies:
        cookie_dict = {
            'domain': '.zhipin.com',
            'name': cookie.get('name'),
            'value': cookie.get('value'),
            'path': '/',
            "expires": '',
            'sameSite': 'None',
            'secure': cookie.get('secure')
        }
        browser.add_cookie(cookie_dict)

browser = webdriver.Chrome()
url = "https://www.zhipin.com/?city=100010000&ka=city-sites-100010000"
browser.get(url)
newwindow='window.open("https://www.zhipin.com/?city=100010000&ka=city-sites-100010000");'
# 删除原来的cookie
browser.delete_all_cookies()
# 携带cookie打开
getCookie(browser,url)
# 通过js新打开一个窗口
browser.execute_script(newwindow)
input("查看效果")
browser.quit()

上面的程序参考了这篇文章：利用selenium携带cookies实现免登录

2、Selenium元素定位

以百度的网页为例，在进行对webdriver通过xpath进行元素定位时可以通过下面的步骤快速定位：页面右键点击检查；之后找到当前按钮"登陆"的代码部分；右键copy可以直接得到在当前页面获得该元素的xpath，非常简单高效。

在使用webdriver进行元素定位时可以对得到的结果再次进行元素定位，可以更好对程序进行设计和处理。

中间在处理table中的tb、td时出现了一个问题：Xpath无法解析（tbody）。

这个感觉是网站的问题，后来更换了爬取的页面，就没有这个问题了。

关于这个问题的具体描述和分析可以参考这篇文章：Python爬虫——从浏览器复制的Xpath无法解析（tbody）

3、Selenium webdriver 实现账号密码登陆

通过webdriver 的find_element_by_id(“password”)可以定位到每个网站的账号密码的输入位置，然后传入已有的字符串就可以实现登陆。

这种登陆方式可以解决很多网站的登陆问题。

def Login():
    Name = "******"
    Password = "********"
    # 输入账号
    time.sleep(4)
    driver.find_element_by_id("username").send_keys(Name)
    # 输入密码
    driver.find_element_by_id("password").send_keys(Password)
    time.sleep(4)
    # 点击登录按钮
    driver.find_element_by_id("submit_id").click()
    time.sleep(4)