目标网站是药物临床试验登记平台
思路:尝试requests库直接获取该网站的response,失败,因为该网站返回202,需要破解Js;然后尝试用Chrome driver驱动获取网页数据,失败,因为被识别为恶意爬虫;然后找到了pyppeteer库进行尝试,成功
贴代码:
import asyncioimport randomfrom pyppeteer import launchfrom pyppeteer.network_manager import Responseclass pyppeteerScript(object): """ pyppeteer """ def __init__(self): self.base_url = "http://www.chinadrugtrials.org.cn/clinicaltrials.searchListdetail.dHTML" # 从第几个开始爬取 self.current_page = 13480 # 可爬取的最大实验数 退出的条件 self.page_limit = 13483 self.config = {@H_404_14@ # 无头浏览器设置 显示网页 "headless": False, # 本地Chromium路径 镜像下载:https://npm.taobao.org/mirrors/chromium-browser-snapshots/ "executablePath": "/Users/xxx/Downloads/chromium/Chromium.app/Contents/MacOS/Chromium", # *** 作后的延迟时间 防止检测 "slowMo": 5, # 配置参数 "args": [ # 关闭自动化提示框 "--disable-infobars", # 关闭沙盒模式 "--no-sandBox", # 代理 PS:每次需要更换代理就需要重新通过launch方法来启动浏览器 # "--proxy-server=http://ip:port", # 取消显示正在受控制的bars "--disable-infobars", ] } async def intercept_response(self, res: Response): Json_text = await res.text() print(Json_text) def __save_HTML(self, content, name): with open("./HTML/{}.HTML".format(name), "w+", enCoding="utf-8") as f: f.write(content) async def run(self): """ 入口函数 """ browser = await launch(**self.config) page = await browser.newPage() await page.setVIEwport({@H_404_14@'wIDth': 1920, 'height': 1080}) await page.setUserAgent( 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36' ); # 混淆识别Js代码 防止被识别 Js_text = """ () =>{ Object.definePropertIEs(navigator,{ webdriver:{ get: () => false } }); window.navigator.Chrome = { runtime: {}, }; Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); } """ await page.evaluateOnNewdocument(Js_text) await page.goto(url=self.base_url) # 等待网页加载(second) await asyncio.sleep(5) while True: if self.current_page > self.page_limit: break # 执行翻页的Js函数 turn_page_Js = "gotopage({})".format(self.current_page) await page.evaluate(turn_page_Js) await asyncio.sleep(random.randint(2, 4)) self.current_page += 1 # 获取网页源码 page_text = await page.content() page_Title = await page.Title() self.__save_HTML(content=page_text, name=page_Title) # 没有XHR请求 不会响应response 不能直接获取Json # await page.setRequestInterception(True) # page.on('response', self.intercept_response) await browser.close()if __name__ == '__main__': asyncio.get_event_loop().run_until_complete(pyppeteerScript().run())
PS:该代码仅供学习交流,请勿用于其他商业用途
总结以上是内存溢出为你收集整理的python的pyppeteer的爬虫demo全部内容,希望文章能够帮你解决python的pyppeteer的爬虫demo所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)