美丽的汤findAll找不到全部

led发光原理 • 2022-12-15 • 随笔 • 阅读 20

美丽的汤findAll找不到全部

不同的HTML解析器对损坏的HTML的处理方式不同。该页面提供了损坏的HTML，

lxml

解析器对此的处理不佳：

>>> import requests>>> from bs4 import BeautifulSoup>>> r = requests.get('http://mangafox.me/directory/')>>> soup = BeautifulSoup(r.content, 'lxml')>>> len(soup.find_all('a', class_='manga_img'))18

标准库

html.parser

在此特定页面上的麻烦较少：

>>> soup = BeautifulSoup(r.content, 'html.parser')>>> len(soup.find_all('a', class_='manga_img'))44

使用将其转换为您的特定代码示例

urllib

，您将这样指定解析器：

soup = BeautifulSoup(page, 'html.parser')  # BeatifulSoup can do the reading

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5618113.html

解析损坏特定页面示例

打赏

微信扫一扫

支付宝扫一扫

led发光原理一级用户组

0 0

Python-递归查找和替换文本文件中字符串的方法

上一篇 2022-12-15

如何用python re.sub只替换部分匹配

下一篇 2022-12-15

发表评论

登录后才能评论

美丽的汤findAll找不到全部

发表评论

评论列表（0条）