四中方法:
'''
得到当前页面所有连接
'''
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver
url = '>
if age == None: #简单点可以用 if not age:
print u'没有找到'
else:
soupfind(attrs={"class":"name"})
#否则用findAll找出所有具有这个class的tr
tr = htmlfind("tr", attrs={"class":"show_name"})
tds = trfindAll("td")
for td in tds:
print tdstring # 或许不是string属性,你可以用dir(td)看看有哪些可用的。
扩展资料:
1、如果是函数定义中参数前的表示的是将调用时的多个参数放入元组中,则表示将调用函数时的关键字参数放入一个字典中。
1)如定义以下函数:
def func(args):print(args)
当用func(1,2,3)调用函数时,参数args就是元组(1,2,3)
2)如定义以下函数:
def func(args):print(args)
当用func(a=1,b=2)调用函数时,参数args将会是字典{'a':1,'b':2}
学python的同时一定会接触到其他技术,毕竟光会python这门语言是不够的,要看用它来做什么。比如说用 python做爬虫,就必须接触到html, >
python是现在最火的数据分析工具语言python的进阶的路线是数据清洗,爬虫,数据容器,之后是卷积,线性分析,和机器学习,区块连,金融方面的量化等高端进阶。
python爬虫项目实战:
爬取糗事百科用户的所有信息,包括用户名、性别、年龄、内容等等。
10个步骤实现项目功能,下面开始实例讲解:
1导入模块
import re
import urllibrequest
from bs4 import BeautifulSoup
2添加头文件,防止爬取过程被拒绝链接
def qiuShi(url,page):
################### 模拟成高仿度浏览器的行为 ##############
heads ={
'Connection':'keep-alive',
'Accept-Language':'zh-CN,zh;q=09',
'Accept':'text/html,application/xhtml+xml,application/xml;
q=09,image/webp,image/apng, / ;q=08',
'User-Agent':'Mozilla/50 (Windows NT 100; WOW64) AppleWebKit/53736
(KHTML, like Gecko) Chrome/6303239132 Safari/53736',
}
headall = []
for key,value in headsitems():
items = (key,value)
headallappend(items)
opener = urllibrequestbuild_opener()
openeraddheaders = headall
urllibrequestinstall_opener(opener)
data = openeropen(url)read()decode()
################## end ########################################
3创建soup解析器对象
soup = BeautifulSoup(data,'lxml')
x = 0
4开始使用BeautifulSoup4解析器提取用户名信息
############### 获取用户名 ########################
name = []
unames = soupfind_all('h2')
for uname in unames:
nameappend(unameget_text())
#################end#############################
5提取发表的内容信息
############## 发表的内容 #########################
cont = []
data4 = soupfind_all('div',class_='content')
data4 = str(data4)
soup3 = BeautifulSoup(data4,'lxml')
contents = soup3find_all('span')
for content in contents:
contappend(contentget_text())
##############end####################################
6提取搞笑指数
#################搞笑指数##########################
happy = []
data2 = soupfind_all('span',class_="stats-vote")
data2 = str(data2) # 将列表转换成字符串形式才可以使用
soup1 = BeautifulSoup(data2,'lxml')
happynumbers = soup1find_all('i',class_="number")
for happynumber in happynumbers:
happyappend(happynumberget_text())
##################end#############################
7提取评论数
############## 评论数 ############################
comm = []
data3 = soupfind_all('a',class_='qiushi_comments')
data3 = str(data3)
soup2 = BeautifulSoup(data3,'lxml')
comments = soup2find_all('i',class_="number")
for comment in comments:
commappend(commentget_text())
############end#####################################
8使用正则表达式提取性别和年龄
######## 获取性别和年龄 ##########################
pattern1 = '<div class="articleGender (w )Icon">(d )</div>'
sexages = recompile(pattern1)findall(data)
9设置用户所有信息输出的格局设置
################## 批量输出用户的所以个人信息 #################
print()
for sexage in sexages:
sa = sexage
print(' ' 17, '= = 第', page, '页-第', str(x+1) + '个用户 = = ',' ' 17)
print('用户名:',name[x],end='')
print('性别:',sa[0],' 年龄:',sa[1])
print('内容:',cont[x])
print('搞笑指数:',happy[x],' 评论数:',comm[x])
print(' ' 25,' 三八分割线 ',' ' 25)
x += 1
###################end##########################
10设置循环遍历爬取13页的用户信息
for i in range(1,14):
url = ' >
以上就是关于python怎么获取动态网页链接全部的内容,包括:python怎么获取动态网页链接、Python beautifulsoup 获取标签中的值 怎么获取、python爬虫项目实战:爬取用户的所有信息,如性别、年龄等等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)