网络请求模块补充

网络请求模块补充,第1张

网络请求模块补充

文章目录
  • 网络请求模块补充
  • 一、urllib.parse的补充
    • 1、批量转换成字典格式
    • 2、urllib.parse.urlencode()的作用
  • 二、百度贴吧案例
    • 页面分析
      • 简单代码实现
      • 1、百度 贴吧改写函数式
      • 2、百度 贴吧改写成面向对象式
  • 三、百度案例
    • 页面分析
    • 缩进
      • 代码实现
  • 四、有道翻译
      • 学习目标
      • 需求
      • 确定真正的目标url网址
      • 代码实现
    • 总结


提示:以下是本篇文章正文内容,下面案例可供参考

一、urllib.parse的补充 1、批量转换成字典格式

Ctrl+R然后会d出框
点击.图标

接着输入
上一行 : (.
* ?): (.*)
下一行: “$1”:“$2”,

然后点击replace all或者全部替换

然后放到字典里面

代码展示:

import urllib.parse

dict = {
"ie":"UTF-8",
 "tn":"62095104_35_oem_dg",
 "wd":"爬虫",
}
 # "ie":"UTF-8",
 # "tn":"62095104_35_oem_dg",
 # "wd":"爬虫",

base_url = "https://www.baidu.com/"

url = base_url + urllib.parse.urlencode(dict)
print(url)
print(urllib.parse.urlencode(dict))
2、urllib.parse.urlencode()的作用

urllib.parse.urlencode()能够把字典格式的数据用&拼接成字符串的

二、百度贴吧案例

目标:爬取贴吧数据
需求:
1、输入要爬取的贴吧名字
2、实现翻页爬取 指定起始页
3、保存 1.html 2.html

页面分析

先实现翻页

https://tieba.baidu.com/f?dyTabStr=MCw2LDIsMyw0LDEsNSw3LDgsOQ%3D%3D&fr=ala0&kw=%C0%AF%B1%CA%D0%A1%D0%C2&tpl=5 第一页
https://tieba.baidu.com/f?kw=%E8%9C%A1%E7%AC%94%E5%B0%8F%E6%96%B0&ie=utf-8&pn=50 第二页
https://tieba.baidu.com/f?kw=%E8%9C%A1%E7%AC%94%E5%B0%8F%E6%96%B0&ie=utf-8&pn=100 第三页

观察这三页的规律
翻页规律:可以发现以50为基数增加的

0 第一页 (1-1)*50
50 第二页 (2-1)*50
100 第三页 (3-1)*50

简单代码实现
# 目标:爬取贴吧数据

import urllib.parse
import urllib.request

title = input("请输入要爬取的贴吧主题:")
start = int(input("请输入开始页:"))
end = int(input("请输入结束页:"))

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}

# 目标url的拼接
base_url = "https://tieba.baidu.com/f?"
# range是左闭右开的
for i in range(start, end + 1):
    dict = {
        "kw": title,
        "ie": "utf-8",
        "pn": (i - 1) * 50
    }
    url_res = urllib.parse.urlencode(dict)  # 拼接dict
    url = base_url + url_res
    print(url)

    # 发送请求 获取响应
    # 1、构造请求对象 url和header
    res_obj = urllib.request.Request(url,headers=header)
    # 2、发送请求
    response = urllib.request.urlopen(res_obj)
    # 3、从响应对象里面获取响应内容(源代码)
    html = response.read().decode('utf-8')

    # 保存数据 1.html 2.html
    print("正在爬取html")
    file_name = str(i) + 'html'
    print("已爬取第"+str(i)+'页html信息')
    with open(file_name,'w',encoding='utf-8') as file_obj:
        file_obj.write(html)

1、百度 贴吧改写函数式
import urllib.parse
import urllib.request


# 发送请求 获取网页源代码
def getHtml(url, header):
    """
    :param url: 请求的目标url
    :param header: 请求头
    :return: 返回值html
    """
    # 发送请求 获取响应
    # 1、构造请求对象 url和header
    res_obj = urllib.request.Request(url, headers=header)
    # 2、发送请求
    response = urllib.request.urlopen(res_obj)
    # 3、从响应对象里面获取响应内容(源代码)
    html = response.read().decode('utf-8')
    return html


# 保存到本地
def saveData(html, file_name):
    """
    :param html: 要写入的数据(网页源码)
    :param file_name: 要保存的文件名字
    :return:
    """
    with open(file_name, 'w', encoding='utf-8') as file_obj:
        file_obj.write(html)


# 主函数
def main():
    title = input("请输入要爬取的贴吧主题:")
    start = int(input("请输入开始页:"))
    end = int(input("请输入结束页:"))

    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
    }
    # 目标url的拼接
    base_url = "https://tieba.baidu.com/f?"
    # range是左闭右开的
    for i in range(start, end + 1):
        dict = {
            "kw": title,
            "ie": "utf-8",
            "pn": (i - 1) * 50
        }
        url_res = urllib.parse.urlencode(dict)  # 拼接dict
        url = base_url + url_res
        print(url)
        html = getHtml(url, header)
        # 保存数据 1.html 2.html
        print("正在爬取html")
        file_name = str(i) + 'html'
        print("已爬取第" + str(i) + '页html信息')
        saveData(html, file_name)


if __name__ == '__main__':
    main()

2、百度 贴吧改写成面向对象式

代码如下(示例):

import urllib.parse
import urllib.request


class BaiduTb():
    def __init__(self):
        pass

    def readHtml(self,url,header):
        """
        :param url: 请求的目标url
        :param header: 请求头
        :return: 返回值html
        """
        # 发送请求 获取响应
        # 1、构造请求对象 url和header
        res_obj = urllib.request.Request(url, headers=header)
        # 2、发送请求
        response = urllib.request.urlopen(res_obj)
        # 3、从响应对象里面获取响应内容(源代码)
        html = response.read().decode('utf-8')
        return html

    def saveHtml(self,file_name,html):
        """
            :param html: 要写入的数据(网页源码)
            :param file_name: 要保存的文件名字
            :return:
            """
        with open(file_name, 'w', encoding='utf-8') as file_obj:
            file_obj.write(html)

    def main(self):
        title = input("请输入要爬取的贴吧主题:")
        start = int(input("请输入开始页:"))
        end = int(input("请输入结束页:"))

        header = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/100.0.4896.127 Safari/537.36 "
        }
        # 目标url的拼接
        base_url = "https://tieba.baidu.com/f?"
        # range是左闭右开的
        for i in range(start, end + 1):
            dict = {
                "kw": title,
                "ie": "utf-8",
                "pn": (i - 1) * 50
            }
            url_res = urllib.parse.urlencode(dict)  # 拼接dict
            url = base_url + url_res
            print(url)
            html = self.readHtml(url, header)
            # 保存数据 1.html 2.html
            print("正在爬取html")
            file_name = str(i) + 'html'
            print("已爬取第" + str(i) + '页html信息')
            self.saveHtml(html, file_name)


if __name__ == '__main__':
    tb = BaiduTb()
    tb.main()

少爬易给封


三、百度案例 页面分析

第一页
wd: 爬虫
pn: 0
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: ff1689940000985b
rsv_t: 9937qekKvRdsq8/euMtVLUaTI1a073D3d+3NPNcP+iF7kL0Ju2LXjKBybNQ1NkDsfr1nDN8ErnJs
第二页
wd: 爬虫
pn: 10
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: baa30ebc0001d955
rsv_t: 2365f1dYeVnMlJqcSmgpP81PEzjCOA25O/ZGKaLKrDG4j5FjqawYexnxyCbsmWO11HmumPQttdIf
第三页
wd: 爬虫
pn: 20
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: a0f0e65a0001f772
rsv_t: 0137oyFIandQaSxRttP+OG1x13ZlTp78qigEJjN9eEnazxyAnNFaKEYNc6q1cxmuldwM3kRMlCWZ

~通过页面分析,我们可以看出:
通过动态替换pn能实现翻页
虽然在不同页rsv_pq和rsv_t这两个参数变化了,但是不影响。

缩进

同时退:选择要 *** 作的代码后 按tab
同时进:选择要 *** 作的代码后 按shift + tab

代码实现
import urllib.parse
import urllib.request

title = input("请输入要爬取的贴吧主题:")
start = int(input("请输入开始页:"))
end = int(input("请输入结束页:"))
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/100.0.4896.127 Safari/537.36 "
}
for i in range(start, end + 1):
    # wd和oq对应搜索主题词
    # pn实现翻页
    dict = {
        "wd": title,
        "pn": (i - 1) * 10,
        "oq": title,
        "tn": " 62095104_35_oem_dg",
        "ie": " utf-8",
        "usm": " 3",
        "rsv_pq": " ad76005600003bdf",
        "rsv_t": " d8b6Zjkf0RBxJOU8ZO2cxV83M22udzJG1xPIRAh2q54wA+TJ/MuYJAR336aAf6soUvirGt/HDLUm",
    }

    # 在dict查找主题词和翻页参数
    base_url = "https://www.baidu.com/s?"
    url = base_url + urllib.parse.urlencode(dict)
    # 确定目标url没问题
    print(url)
    # 发送请求 获取响应
    # 1、构造请求对象 url和header
    res_obj = urllib.request.Request(url, headers=header)
    # 2、发送请求
    response = urllib.request.urlopen(res_obj)
    # 3、从响应对象里面获取响应内容(源代码)
    html = response.read().decode('utf-8')
    # 保存数据 1.html 2.html
    print("正在爬取html")
    file_name = "baidu " + title + str(i) + 'html'
    print("已爬取第" + str(i) + '页html信息')
    with open(file_name, 'w', encoding='utf-8') as file_obj:
        file_obj.write(html)

可以在把这个简单代码,改写成函数形式,或者面向对象形式,加深自己学习印象!!!

四、有道翻译 学习目标

如何用urllib发送post请求

需求

输入翻译词 得到相应的翻译结果

确定真正的目标url网址

https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule

代码实现
import urllib.parse
import urllib.request
import json

word = input("请输入要翻译的内容:")
# https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule
# 通过测试对比我们发现 翻译不同的内容 目标url是不会变化的
# _o涉及到js逆向
url = "https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/100.0.4896.127 Safari/537.36 "
}
# 发送post请求时,需要的参数data
data = {
    "i": word,
    "from": "AUTO",
    "to": "AUTO",
    "smartresult": "dict",
    "client": "fanyideskweb",
    "salt": "16504345411038",
    "sign": "1fd879b77c3d9ad88360b4b161a3bb2e",
    "lts": "1650434541103",
    "bv": "ac3968199d18b7367b2479d1f4938ac2",
    "doctype": "json",
    "version": "2.1",
    "keyfrom": "fanyi.web",
    "action": "FY_BY_REALTlME",
}

# 用urllib发送请求的时候 不能携带中文字样
data_new = urllib.parse.urlencode(data)
# TypeError: POST data should be bytes, an iterable of bytes, or a file object. It cannot be of type str.
# bytes_data = bytes(data, encoding='utf-8')#TypeError: encoding without a string argument
bytes_data = bytes(data_new, encoding='utf-8')
# 1、构造请求对象(post请求需要传递data)
res_obj = urllib.request.Request(url, headers=header, data=bytes_data)
# 2、发送请求 获取响应对象
response = urllib.request.urlopen(res_obj)
# 3、通过相应对象获取响应内容
result = response.read().decode('utf-8')
# print(type(result), result)
# 提取翻译结果
# json.loads()将字符串转换成字典
# json.dumps()将字典转换成字符串
trans_dict = json.loads(result)
# print(trans_dict)
trans2_dict = trans_dict['translateResult']
# print(trans2_dict)
trans3_dict = trans2_dict[0]
trans4_dict = trans3_dict[0]
# print(trans3_dict)
trans5_dict = trans4_dict['tgt']
print(trans5_dict)
总结

1、用urllib发送请求的时候 不能携带中文字样 如果有 需要用urllib.parse.urlencode()处理
data_new = urllib.parse.urlencode(data)
如果是发送的post请求 需要把携带的数据data转换为bytes 在转换的时候还要注意编码问题

2、目标url中的_o涉及到js逆向

3、把字符串转换为字典
import json

~ json.loads()将字符串转换成字典
~json.dumps()将字典转换成字符串
result是待转换的字符串,trans_dict是转换后的字典
trans_dict = json.loads(result)

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/714428.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-24
下一篇 2022-04-24

发表评论

登录后才能评论

评论列表(0条)

保存