python爬虫怎么获取动态的网页源码_框架

一个月前实习导师布置任务说通过网络爬虫获取深圳市气象局发布的降雨数据，网页如下：

心想，爬虫不太难的，当年跟zjb爬煎蛋网无（mei）聊（zi）图的时候，多么清高。由于接受任务后的一个月考试加作业一大堆，导师也不催，自己也不急。

但是，导师等我一个月都得让我来写意味着这东西得有多难吧。。。今天打开一看的确是这样。网站是基于Ajax写的，数据动态获取，所以无法通过下载源代码然后解析获得。

从某不良少年写的抓取淘宝mm的例子中收到启发，对于这样的情况，一般可以同构自己搭建浏览器实现。phantomJs，CasperJS都是不错的选择。

导师的要求是获取过去一年内深圳每个区每个站点每小时的降雨量，执行该 *** 作需要通过如上图中的历史查询实现，即通过一个时间来查询，而这个时间存放在一个hidden类型的input标签里，当然可以通过js语句将其改为text类型，然后执行send_keys之类的 *** 作。然而，我失败了。时间可以修改设置，可是结果如下图。

为此，仅抓取实时数据。选取python的selenium，模拟搭建浏览器，模拟人为的点击等 *** 作实现数据生成和获取。selenium的一大优点就是能获取网页渲染后的源代码，即执行 *** 作后的源代码。普通的通过 url解析网页的方式只能获取给定的数据，不能实现与用户之间的交互。selenium通过获取渲染后的网页源码，并通过丰富的查找工具，个人认为最好用的就是find_element_by_xpath("xxx")，通过该方式查找到元素后可执行点击、输入等事件，进而向服务器发出请求，获取所需的数据。

[python] view plain copy

# coding=utf-8

from testString import

from selenium import webdriver

import string

import os

from seleniumwebdrivercommonkeys import Keys

import time

import sys

default_encoding = 'utf-8'

if sysgetdefaultencoding() != default_encoding:

reload(sys)

syssetdefaultencoding(default_encoding)

district_navs = ['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10']

district_names = ['福田区','罗湖区','南山区','盐田区','宝安区','龙岗区','光明新区','坪山新区','龙华新区','大鹏新区']

flag = 1

while (flag > 0):

driver = webdriverChrome()

driverget("hianCe/")

# 选择降雨量

driverfind_element_by_xpath("//span[@id='fenqu_H24R']")click()

filename = timestrftime("%Y%m%d%H%M", timelocaltime(timetime())) + 'txt'

#创建文件

output_file = open(filename, 'w')

# 选择行政区

for i in range(len(district_navs)):

driverfind_element_by_xpath("//div[@id='" + district_navs[i] + "']")click()

# print driverpage_source

timeElem = driverfind_element_by_id("time_shikuang")

#输出时间和站点名

output_filewrite(timeElemtext + ',')

output_filewrite(district_names[i] + ',')

elems = driverfind_elements_by_xpath("//span[@onmouseover='javscript:changeTextOver(this)']")

#输出每个站点的数据，格式为：站点名，一小时降雨量，当日累积降雨量

for elem in elems:

output_filewrite(AMonitorRecord(elemget_attribute("title")) + ',')

output_filewrite('\n')

output_fileclose()

driverclose()

timesleep(3600)

文件中引用的文件testString只是修改输出格式，提取有效数据。

[python] view plain copy

#Encoding=utf-8

def OnlyCharNum(s, oth=''):

s2 = slower()

fomart = 'abcdefghijklmnopqrstuvwxyz0123456789,'

for c in s2:

if not c in fomart:

s = sreplace(c, '')

return s

def AMonitorRecord(str):

str = strsplit(":")

return str[0] + "," + OnlyCharNum(str[1])

一小时抓取一次数据，结果如下：

这是dedecms程序的调用标签，dede:arclist表示调用的是文章；flag和limit是该标签的属性，其中flag=“h”属性的意思是调用的头条文章，如果你要让它显示在头条位置，那么你在后台创作这篇文章的时候，你要先勾选上头条h的那个选项，生成后在页面才会显示出来

前言：由于长度限制，且不像其他题目告知flagphp的内容，笔者并没有求出flag，绕过思路可参考，也欢迎ctf大佬指点迷津。

题目如下，解析flagphp中的flag变量

1题目不告知flagphp的内容，所以唯一的办法只有打印出flagphp，先想办法绕过

2因为 _ 也在正则里面，所以 =${_GET}[_]();&_=phpinfo() 没办法传入

3尝试php7 中的($a)()；来执行动态函数例如 ('phpinfo')()

4那么动态构造函数名称即可，可理解，假如你是：(1+1)(); php会先运算1+1=2 然后在调用：2()；

5借助大牛的payload (~%8F%97%8F%96%91%99%90)(); 成功执行

6payload构造方式如下

如何理解？

对执行的函数取反然后进行 urlencode 详细可自行科普

7当前可执行phpinfo，如何获取flagphp的内容？思路继续扩展

以上均是长度限制笔者解题终于此

那么只需要执行 getFlag()函数即可

('getFlag')(); 对flag进行编码

以上就是笔者对php绕过的小理解和内容分享

参考文章： >

以上就是关于python爬虫怎么获取动态的网页源码全部的内容，包括:python爬虫怎么获取动态的网页源码、{dede:arclist flag='h' limit='1,4'}中“flag='h'”是什么意思作用是什么、CTF赛题PHP7 正则绕过等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9513070.html

python爬虫怎么获取动态的网页源码

发表评论

评论列表（0条）