教你用Python写一个爬虫，免费看小说_软件运维

这是一个练习作品。用python脚本爬取笔趣阁上面的免费小说。

环境：python3

类库：BeautifulSoup

数据源： http://www.biqukan.cc

原理就是伪装正常http请求，正常访问网页。然后通过bs4重新解析html结构来提取有效数据。

包含了伪装请求头部，数据源配置（如果不考虑扩展其他数据源，可以写死）。

config.py文件

fiction.py文件

summary.py文件

catalog.py文件

article.py文件

暂没有做数据保存模块。如果需要串起来做成一个完整的项目的话，只需要把小说数据结构保存即可（节省磁盘空间）。通过小说url可以很快速的提取出小说简介、目录、每一章的正文。

如果想要做的更好，可以把目录，介绍、正文等部分缓存起来，当然得有足够的空间。

1、利用IP代理池技术，每次从IP代理池中随机选择一个IP代理来爬取数据。

import urllib.request

import random

#构建IP代理池

ip_pool = [

'58.221.55.58:808',

'120.198.248.26:8088',

'221.229.166.55:8080',

'139.196.214.67:8080'

]

def ip(ip_pool, url):

#从IP代理池中随机选一个IP代理

ip = random.choice(ip_pool)

print(ip)

#格式化IP代理格

proxy = urllib.request.ProxyHandler({'http': ip})

#装入IP代理

opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)

return urllib.request.urlopen(url).read().decode('utf-8', 'ignore')

data = ip(ip_pool, 'https://www.baidu.com/?tn=98010089_dg&ch=15')

print(data)

2、使用IP代理池和用户代理的组合来增加访问量，更安全。利用ip代理的动态ip构建自己的代理ip池，可以保证ip的质量。

因为ip代理的ip资源是独立有效的。

import urllib.request

import random

import urllib.error

#自定义UA_IP类，用来随机得到

def UA_IP(thisUrl):

#构建用户代理池

ua_pool = [

'Mozilla/5.0 (Windows NT 6.1WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201',

'Mozilla/5.0 (compatibleMSIE 9.0Windows NT 6.1WOW64Trident/5.0SLCC2.NET CLR 2.0.50727.NET CLR 3.5.30729.NET CLR 3.0.30729Media Center PC 6.0InfoPath.3.NET4.0C.NET4.0E)',

'Mozilla/5.0 (Windows NT 6.1WOW64rv:6.0) Gecko/20100101 Firefox/6.0'

]

#构建ip代理池

ip_pool = [

'139.196.196.74',

'112.124.47.21',

'61.129.70.109',

'221.229.166.55'

]

thisUA = random.choice(ua_pool) #从用户代理池中随机选择一个用户代理

thisIP = random.choice(ip_pool) #从IP代理池中随机选择一个IP代理

headers = ('User-Agent', thisUA)#构造报头

#将IP格式化

proxy = urllib.request.ProxyHandler({'http': thisIP})

#装入IP代理

opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)

#装入代理

opener.addheaders = [headers]

#将opener设置为全局

urllib.request.install_opener(opener)

#从网页爬取信息

data = urllib.request.urlopen(thisUrl).read().decode('utf-8', 'gnore')

return data

#网页池，后面从网页池中选择一个进行该网页信息的爬取

urls = [

'https://mp.csdn.net/mdeditor/88323361#',

'https://mp.csdn.net/mdeditor/88144295#',

'https://mp.csdn.net/mdeditor/88081609#'

]

#爬取1000次

for i in range(0, 1000):

try:

thisUrl = random.choice(urls)

data = UA_IP(thisUrl)

print(len(data))

except urllib.error.HTTPError as e:

if hasattr(e, 'code'):

print(e.code)

if hasattr(e, 'reason'):

print(e.reason)

以上就是爬虫使用ip代理池的方法，推荐大家使用品易http代理ip，千万ip资源百兆带宽，保证爬虫数据传输安全。提供高匿稳定代理ip服务，方便快捷获取网站数据，流量免费测试正在进行！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/11569897.html

教你用Python写一个爬虫，免费看小说

发表评论

评论列表（0条）