文章目录
- 网络请求模块补充
- 一、urllib.parse的补充
- 1、批量转换成字典格式
- 2、urllib.parse.urlencode()的作用
- 二、百度贴吧案例
- 页面分析
- 简单代码实现
- 1、百度 贴吧改写函数式
- 2、百度 贴吧改写成面向对象式
- 三、百度案例
- 页面分析
- 缩进
- 代码实现
- 四、有道翻译
- 学习目标
- 需求
- 确定真正的目标url网址
- 代码实现
- 总结
提示:以下是本篇文章正文内容,下面案例可供参考
Ctrl+R然后会d出框
点击.图标
接着输入
上一行 : (.* ?): (.*)
下一行: “$1”:“$2”,
然后点击replace all或者全部替换
然后放到字典里面
代码展示:
import urllib.parse
dict = {
"ie":"UTF-8",
"tn":"62095104_35_oem_dg",
"wd":"爬虫",
}
# "ie":"UTF-8",
# "tn":"62095104_35_oem_dg",
# "wd":"爬虫",
base_url = "https://www.baidu.com/"
url = base_url + urllib.parse.urlencode(dict)
print(url)
print(urllib.parse.urlencode(dict))
2、urllib.parse.urlencode()的作用
urllib.parse.urlencode()能够把字典格式的数据用&拼接成字符串的
二、百度贴吧案例目标:爬取贴吧数据
需求:
1、输入要爬取的贴吧名字
2、实现翻页爬取 指定起始页
3、保存 1.html 2.html
先实现翻页
https://tieba.baidu.com/f?dyTabStr=MCw2LDIsMyw0LDEsNSw3LDgsOQ%3D%3D&fr=ala0&kw=%C0%AF%B1%CA%D0%A1%D0%C2&tpl=5 第一页
https://tieba.baidu.com/f?kw=%E8%9C%A1%E7%AC%94%E5%B0%8F%E6%96%B0&ie=utf-8&pn=50 第二页
https://tieba.baidu.com/f?kw=%E8%9C%A1%E7%AC%94%E5%B0%8F%E6%96%B0&ie=utf-8&pn=100 第三页
观察这三页的规律
翻页规律:可以发现以50为基数增加的
0 第一页 (1-1)*50
50 第二页 (2-1)*50
100 第三页 (3-1)*50
# 目标:爬取贴吧数据
import urllib.parse
import urllib.request
title = input("请输入要爬取的贴吧主题:")
start = int(input("请输入开始页:"))
end = int(input("请输入结束页:"))
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}
# 目标url的拼接
base_url = "https://tieba.baidu.com/f?"
# range是左闭右开的
for i in range(start, end + 1):
dict = {
"kw": title,
"ie": "utf-8",
"pn": (i - 1) * 50
}
url_res = urllib.parse.urlencode(dict) # 拼接dict
url = base_url + url_res
print(url)
# 发送请求 获取响应
# 1、构造请求对象 url和header
res_obj = urllib.request.Request(url,headers=header)
# 2、发送请求
response = urllib.request.urlopen(res_obj)
# 3、从响应对象里面获取响应内容(源代码)
html = response.read().decode('utf-8')
# 保存数据 1.html 2.html
print("正在爬取html")
file_name = str(i) + 'html'
print("已爬取第"+str(i)+'页html信息')
with open(file_name,'w',encoding='utf-8') as file_obj:
file_obj.write(html)
1、百度 贴吧改写函数式
import urllib.parse
import urllib.request
# 发送请求 获取网页源代码
def getHtml(url, header):
"""
:param url: 请求的目标url
:param header: 请求头
:return: 返回值html
"""
# 发送请求 获取响应
# 1、构造请求对象 url和header
res_obj = urllib.request.Request(url, headers=header)
# 2、发送请求
response = urllib.request.urlopen(res_obj)
# 3、从响应对象里面获取响应内容(源代码)
html = response.read().decode('utf-8')
return html
# 保存到本地
def saveData(html, file_name):
"""
:param html: 要写入的数据(网页源码)
:param file_name: 要保存的文件名字
:return:
"""
with open(file_name, 'w', encoding='utf-8') as file_obj:
file_obj.write(html)
# 主函数
def main():
title = input("请输入要爬取的贴吧主题:")
start = int(input("请输入开始页:"))
end = int(input("请输入结束页:"))
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}
# 目标url的拼接
base_url = "https://tieba.baidu.com/f?"
# range是左闭右开的
for i in range(start, end + 1):
dict = {
"kw": title,
"ie": "utf-8",
"pn": (i - 1) * 50
}
url_res = urllib.parse.urlencode(dict) # 拼接dict
url = base_url + url_res
print(url)
html = getHtml(url, header)
# 保存数据 1.html 2.html
print("正在爬取html")
file_name = str(i) + 'html'
print("已爬取第" + str(i) + '页html信息')
saveData(html, file_name)
if __name__ == '__main__':
main()
2、百度 贴吧改写成面向对象式
代码如下(示例):
import urllib.parse
import urllib.request
class BaiduTb():
def __init__(self):
pass
def readHtml(self,url,header):
"""
:param url: 请求的目标url
:param header: 请求头
:return: 返回值html
"""
# 发送请求 获取响应
# 1、构造请求对象 url和header
res_obj = urllib.request.Request(url, headers=header)
# 2、发送请求
response = urllib.request.urlopen(res_obj)
# 3、从响应对象里面获取响应内容(源代码)
html = response.read().decode('utf-8')
return html
def saveHtml(self,file_name,html):
"""
:param html: 要写入的数据(网页源码)
:param file_name: 要保存的文件名字
:return:
"""
with open(file_name, 'w', encoding='utf-8') as file_obj:
file_obj.write(html)
def main(self):
title = input("请输入要爬取的贴吧主题:")
start = int(input("请输入开始页:"))
end = int(input("请输入结束页:"))
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/100.0.4896.127 Safari/537.36 "
}
# 目标url的拼接
base_url = "https://tieba.baidu.com/f?"
# range是左闭右开的
for i in range(start, end + 1):
dict = {
"kw": title,
"ie": "utf-8",
"pn": (i - 1) * 50
}
url_res = urllib.parse.urlencode(dict) # 拼接dict
url = base_url + url_res
print(url)
html = self.readHtml(url, header)
# 保存数据 1.html 2.html
print("正在爬取html")
file_name = str(i) + 'html'
print("已爬取第" + str(i) + '页html信息')
self.saveHtml(html, file_name)
if __name__ == '__main__':
tb = BaiduTb()
tb.main()
少爬易给封
三、百度案例 页面分析
第一页
wd: 爬虫
pn: 0
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: ff1689940000985b
rsv_t: 9937qekKvRdsq8/euMtVLUaTI1a073D3d+3NPNcP+iF7kL0Ju2LXjKBybNQ1NkDsfr1nDN8ErnJs
第二页
wd: 爬虫
pn: 10
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: baa30ebc0001d955
rsv_t: 2365f1dYeVnMlJqcSmgpP81PEzjCOA25O/ZGKaLKrDG4j5FjqawYexnxyCbsmWO11HmumPQttdIf
第三页
wd: 爬虫
pn: 20
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: a0f0e65a0001f772
rsv_t: 0137oyFIandQaSxRttP+OG1x13ZlTp78qigEJjN9eEnazxyAnNFaKEYNc6q1cxmuldwM3kRMlCWZ
~通过页面分析,我们可以看出:
通过动态替换pn能实现翻页
虽然在不同页rsv_pq和rsv_t这两个参数变化了,但是不影响。
同时退:选择要 *** 作的代码后 按tab
同时进:选择要 *** 作的代码后 按shift + tab
import urllib.parse
import urllib.request
title = input("请输入要爬取的贴吧主题:")
start = int(input("请输入开始页:"))
end = int(input("请输入结束页:"))
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/100.0.4896.127 Safari/537.36 "
}
for i in range(start, end + 1):
# wd和oq对应搜索主题词
# pn实现翻页
dict = {
"wd": title,
"pn": (i - 1) * 10,
"oq": title,
"tn": " 62095104_35_oem_dg",
"ie": " utf-8",
"usm": " 3",
"rsv_pq": " ad76005600003bdf",
"rsv_t": " d8b6Zjkf0RBxJOU8ZO2cxV83M22udzJG1xPIRAh2q54wA+TJ/MuYJAR336aAf6soUvirGt/HDLUm",
}
# 在dict查找主题词和翻页参数
base_url = "https://www.baidu.com/s?"
url = base_url + urllib.parse.urlencode(dict)
# 确定目标url没问题
print(url)
# 发送请求 获取响应
# 1、构造请求对象 url和header
res_obj = urllib.request.Request(url, headers=header)
# 2、发送请求
response = urllib.request.urlopen(res_obj)
# 3、从响应对象里面获取响应内容(源代码)
html = response.read().decode('utf-8')
# 保存数据 1.html 2.html
print("正在爬取html")
file_name = "baidu " + title + str(i) + 'html'
print("已爬取第" + str(i) + '页html信息')
with open(file_name, 'w', encoding='utf-8') as file_obj:
file_obj.write(html)
可以在把这个简单代码,改写成函数形式,或者面向对象形式,加深自己学习印象!!!
四、有道翻译 学习目标如何用urllib发送post请求
需求输入翻译词 得到相应的翻译结果
确定真正的目标url网址代码实现https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule
import urllib.parse
import urllib.request
import json
word = input("请输入要翻译的内容:")
# https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule
# 通过测试对比我们发现 翻译不同的内容 目标url是不会变化的
# _o涉及到js逆向
url = "https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/100.0.4896.127 Safari/537.36 "
}
# 发送post请求时,需要的参数data
data = {
"i": word,
"from": "AUTO",
"to": "AUTO",
"smartresult": "dict",
"client": "fanyideskweb",
"salt": "16504345411038",
"sign": "1fd879b77c3d9ad88360b4b161a3bb2e",
"lts": "1650434541103",
"bv": "ac3968199d18b7367b2479d1f4938ac2",
"doctype": "json",
"version": "2.1",
"keyfrom": "fanyi.web",
"action": "FY_BY_REALTlME",
}
# 用urllib发送请求的时候 不能携带中文字样
data_new = urllib.parse.urlencode(data)
# TypeError: POST data should be bytes, an iterable of bytes, or a file object. It cannot be of type str.
# bytes_data = bytes(data, encoding='utf-8')#TypeError: encoding without a string argument
bytes_data = bytes(data_new, encoding='utf-8')
# 1、构造请求对象(post请求需要传递data)
res_obj = urllib.request.Request(url, headers=header, data=bytes_data)
# 2、发送请求 获取响应对象
response = urllib.request.urlopen(res_obj)
# 3、通过相应对象获取响应内容
result = response.read().decode('utf-8')
# print(type(result), result)
# 提取翻译结果
# json.loads()将字符串转换成字典
# json.dumps()将字典转换成字符串
trans_dict = json.loads(result)
# print(trans_dict)
trans2_dict = trans_dict['translateResult']
# print(trans2_dict)
trans3_dict = trans2_dict[0]
trans4_dict = trans3_dict[0]
# print(trans3_dict)
trans5_dict = trans4_dict['tgt']
print(trans5_dict)
总结
1、用urllib发送请求的时候 不能携带中文字样 如果有 需要用urllib.parse.urlencode()处理
data_new = urllib.parse.urlencode(data)
如果是发送的post请求 需要把携带的数据data转换为bytes 在转换的时候还要注意编码问题
2、目标url中的_o涉及到js逆向
3、把字符串转换为字典
import json
~ json.loads()将字符串转换成字典
~json.dumps()将字典转换成字符串
result是待转换的字符串,trans_dict是转换后的字典
trans_dict = json.loads(result)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)