什么是网络爬虫技术

什么是网络爬虫技术,第1张

网络爬虫技术是一种自动化获取互联网信息的技术。它通过程序模拟人类在互联网上的浏览行为,自动访问网页并提取所需的信息。网络爬虫技术可以用于各种应用场景,如搜索引擎、数据挖掘、信息监控等。其基本原理是通过>

python爬虫项目实战:

爬取糗事百科用户的所有信息,包括用户名、性别、年龄、内容等等。

10个步骤实现项目功能,下面开始实例讲解:

1导入模块

import re

import urllibrequest

from bs4 import BeautifulSoup

2添加头文件,防止爬取过程被拒绝链接

def qiuShi(url,page):

################### 模拟成高仿度浏览器的行为 ##############

heads ={

'Connection':'keep-alive',

'Accept-Language':'zh-CN,zh;q=09',

'Accept':'text/html,application/xhtml+xml,application/xml;

q=09,image/webp,image/apng, / ;q=08',

'User-Agent':'Mozilla/50 (Windows NT 100; WOW64) AppleWebKit/53736

(KHTML, like Gecko) Chrome/6303239132 Safari/53736',

}

headall = []

for key,value in headsitems():

items = (key,value)

headallappend(items)

opener = urllibrequestbuild_opener()

openeraddheaders = headall

urllibrequestinstall_opener(opener)

data = openeropen(url)read()decode()

################## end ########################################

3创建soup解析器对象

soup = BeautifulSoup(data,'lxml')

x = 0

4开始使用BeautifulSoup4解析器提取用户名信息

############### 获取用户名 ########################

name = []

unames = soupfind_all('h2')

for uname in unames:

nameappend(unameget_text())

#################end#############################

5提取发表的内容信息

############## 发表的内容 #########################

cont = []

data4 = soupfind_all('div',class_='content')

data4 = str(data4)

soup3 = BeautifulSoup(data4,'lxml')

contents = soup3find_all('span')

for content in contents:

contappend(contentget_text())

##############end####################################

6提取搞笑指数

#################搞笑指数##########################

happy = []

data2 = soupfind_all('span',class_="stats-vote")

data2 = str(data2) # 将列表转换成字符串形式才可以使用

soup1 = BeautifulSoup(data2,'lxml')

happynumbers = soup1find_all('i',class_="number")

for happynumber in happynumbers:

happyappend(happynumberget_text())

##################end#############################

7提取评论数

############## 评论数 ############################

comm = []

data3 = soupfind_all('a',class_='qiushi_comments')

data3 = str(data3)

soup2 = BeautifulSoup(data3,'lxml')

comments = soup2find_all('i',class_="number")

for comment in comments:

commappend(commentget_text())

############end#####################################

8使用正则表达式提取性别和年龄

######## 获取性别和年龄 ##########################

pattern1 = '<div class="articleGender (w )Icon">(d )</div>'

sexages = recompile(pattern1)findall(data)

9设置用户所有信息输出的格局设置

################## 批量输出用户的所以个人信息 #################

print()

for sexage in sexages:

sa = sexage

print(' ' 17, '= = 第', page, '页-第', str(x+1) + '个用户 = = ',' ' 17)

print('用户名:',name[x],end='')

print('性别:',sa[0],' 年龄:',sa[1])

print('内容:',cont[x])

print('搞笑指数:',happy[x],' 评论数:',comm[x])

print(' ' 25,' 三八分割线 ',' ' 25)

x += 1

###################end##########################

10设置循环遍历爬取13页的用户信息

for i in range(1,14):

url = ' >

以上就是关于什么是网络爬虫技术全部的内容,包括:什么是网络爬虫技术、网络爬虫开发实战2和一的区别、python爬虫项目实战:爬取用户的所有信息,如性别、年龄等等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9443183.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存