网络爬虫技术是一种自动化获取互联网信息的技术。它通过程序模拟人类在互联网上的浏览行为,自动访问网页并提取所需的信息。网络爬虫技术可以用于各种应用场景,如搜索引擎、数据挖掘、信息监控等。其基本原理是通过>
python爬虫项目实战:
爬取糗事百科用户的所有信息,包括用户名、性别、年龄、内容等等。
10个步骤实现项目功能,下面开始实例讲解:
1导入模块
import re
import urllibrequest
from bs4 import BeautifulSoup
2添加头文件,防止爬取过程被拒绝链接
def qiuShi(url,page):
################### 模拟成高仿度浏览器的行为 ##############
heads ={
'Connection':'keep-alive',
'Accept-Language':'zh-CN,zh;q=09',
'Accept':'text/html,application/xhtml+xml,application/xml;
q=09,image/webp,image/apng, / ;q=08',
'User-Agent':'Mozilla/50 (Windows NT 100; WOW64) AppleWebKit/53736
(KHTML, like Gecko) Chrome/6303239132 Safari/53736',
}
headall = []
for key,value in headsitems():
items = (key,value)
headallappend(items)
opener = urllibrequestbuild_opener()
openeraddheaders = headall
urllibrequestinstall_opener(opener)
data = openeropen(url)read()decode()
################## end ########################################
3创建soup解析器对象
soup = BeautifulSoup(data,'lxml')
x = 0
4开始使用BeautifulSoup4解析器提取用户名信息
############### 获取用户名 ########################
name = []
unames = soupfind_all('h2')
for uname in unames:
nameappend(unameget_text())
#################end#############################
5提取发表的内容信息
############## 发表的内容 #########################
cont = []
data4 = soupfind_all('div',class_='content')
data4 = str(data4)
soup3 = BeautifulSoup(data4,'lxml')
contents = soup3find_all('span')
for content in contents:
contappend(contentget_text())
##############end####################################
6提取搞笑指数
#################搞笑指数##########################
happy = []
data2 = soupfind_all('span',class_="stats-vote")
data2 = str(data2) # 将列表转换成字符串形式才可以使用
soup1 = BeautifulSoup(data2,'lxml')
happynumbers = soup1find_all('i',class_="number")
for happynumber in happynumbers:
happyappend(happynumberget_text())
##################end#############################
7提取评论数
############## 评论数 ############################
comm = []
data3 = soupfind_all('a',class_='qiushi_comments')
data3 = str(data3)
soup2 = BeautifulSoup(data3,'lxml')
comments = soup2find_all('i',class_="number")
for comment in comments:
commappend(commentget_text())
############end#####################################
8使用正则表达式提取性别和年龄
######## 获取性别和年龄 ##########################
pattern1 = '<div class="articleGender (w )Icon">(d )</div>'
sexages = recompile(pattern1)findall(data)
9设置用户所有信息输出的格局设置
################## 批量输出用户的所以个人信息 #################
print()
for sexage in sexages:
sa = sexage
print(' ' 17, '= = 第', page, '页-第', str(x+1) + '个用户 = = ',' ' 17)
print('用户名:',name[x],end='')
print('性别:',sa[0],' 年龄:',sa[1])
print('内容:',cont[x])
print('搞笑指数:',happy[x],' 评论数:',comm[x])
print(' ' 25,' 三八分割线 ',' ' 25)
x += 1
###################end##########################
10设置循环遍历爬取13页的用户信息
for i in range(1,14):
url = ' >
以上就是关于什么是网络爬虫技术全部的内容,包括:什么是网络爬虫技术、网络爬虫开发实战2和一的区别、python爬虫项目实战:爬取用户的所有信息,如性别、年龄等等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)