python3 用BeautifulSoup 爬取指定ul下的a标签_框架

用select('ul 的 css 路径')find_all()

css路径直接用浏览器开发视图，从ul复制就好，当然也可以把前面多余的部分删掉

自己写一下吧。

给你个思路：

1、首先分析网页、你要抓取的有用数据

</script><h2>热门专栏</h2>

<dt><a href="/column/details/hellopython3html"><img src=";

2、再使用 urllib或urllib2（推荐使用requests）模块，来获取网页原始数据。

3、处理数据。一般使用 re 正则模块

然后你可能会发现不会requests模块，那就自己找教程学一下。正则也不怎么会，那就找教程学一下。

这个属于很基础的，都是一些静态的数据，而且只有一个页面。

使用 requests 获取数据之后，就成了字符串的处理。使用正则进行匹配。

这些基础的弄好了，就去看 Scrapy框架吧。

那里不会看哪里~~~~

html_doc = """

<html>

<head>

<title>The Dormouse's story</title>

</head>

<body>

<b>

The Dormouse's story

</b>

</p>

<p class="story">Once upon a time there were three little sisters; and their names were

安装必要的库和工具：requests, BeautifulSoup4, lxml, openpyxl

python

Copy code

pip install requests beautifulsoup4 lxml openpyxl

发送 GET 请求，获取网页源代码

python

Copy code

import requests

url = ">

Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：

复制代码代码如下:

import urllib2

url="网址"

up=urllib2urlopen(url)#打开目标页面，存入变量up

cont=upread()#从up中读入该HTML文件

key1='<a href=">

以上就是关于python3 用BeautifulSoup 爬取指定ul下的a标签全部的内容，包括:python3 用BeautifulSoup 爬取指定ul下的a标签、python中抓取这个网址http://blog.csdn.net/column.html先跳转博客专栏、python bs4 的使用等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9748574.html

python3 用BeautifulSoup 爬取指定ul下的a标签

发表评论

评论列表（0条）