修复Python中破碎的HTML – Beautifulsoup无法正常工作

修复Python中破碎的HTML – Beautifulsoup无法正常工作,第1张

概述我有兴趣从这张表中删除文本: https://ows.doleta.gov/unemploy/trigger/2011/trig_100211.html 以及其他喜欢它的人. 我写了一个快速python脚本,适用于以类似方式格式化的其他表: state = "" weeks = "" edate = "" pdate = url[-11:] pdate = pda 我有兴趣从这张表中删除文本: https://ows.doleta.gov/unemploy/trigger/2011/trig_100211.html
以及其他喜欢它的人.

我写了一个快速python脚本,适用于以类似方式格式化的其他表:

state = ""    weeks = ""    edate = ""     pdate = url[-11:]    pdate = pdate[:-5]    table = soup.find("table")     for row in table.findAll('tr'):             cells = row.findAll("td")        if len(cells) == 13:             state = row.find("th").find(text=True)             weeks = cells[11].find(text=True)             edate = cells[12].find(text=True)            try:                   print pdate,state,weeks,edate                 f.writerow([pdate,edate])            except:                  print state[1] + " error"

但是,该脚本不适用于此表,因为标记在一半的行中被破坏.一半行的格式没有标记,以指示行的开头:

</tr> #end of last row,on State0  <td headers = "State1 no info",attributes> <Font attributes> text </Font> </td><td headers = "State1 no info",attributes> <Font attributes> text </Font> </td></tr> #theoretically,end of row about State1

因为一半的行没有正确格式化,所以BeautifulSoup忽略了它们.我已经尝试用整洁来修复问题,但BeautifulSoup在阅读它建议的代码时遇到了问题.我已经考虑通过在正确的位置生成带有标签的新字符串来解决问题,但我不知道该怎么做.

有什么建议?

解决方法 由于不同的解析器可以随意处理损坏的HTML,因此在尝试自行修复之前,在这些情况下通常可以探索它们是如何实现的.

在这种情况下,您可能对HTML5lib如何处理这个问题感兴趣 – 它在我看来就像它插入了缺少的< tr>元素而不是丢弃所有孤立的< td>像lxml(默认)这样的元素.

soup = BeautifulSoup(text) #default parser - lxmlsoup.table.find_all('tr')[9]Out[31]: <tr bgcolor="#C0C0C0"><td align="center" headers="Arizona noinfo" wIDth="25"><Font size="-2"> </Font></td><td align="center" headers="Arizona noinfo" wIDth="25"><Font size="-2"> </Font></td><td align="center" headers="Arizona noinfo" wIDth="25"><Font size="-2"> </Font></td><th align="left" ID="Arizona " wIDth="100"><Font size="-2">Arizona </Font></th><td align="center" headers="Arizona noinfo" wIDth="50"><Font size="-2">2</Font></td><td align="center" headers="Arizona noinfo" wIDth="50"><Font size="-2">2</Font></td><td align="center" headers="Arizona 13_week_IUR indicators" wIDth="50"><Font size="-2">3.03</Font></td><td align="center" headers="Arizona pct_of_prior_2years indicators" wIDth="50"><Font size="-2">79</Font></td><td align="center" headers="Arizona 3_mo_satur indicators" wIDth="50"><Font size="-2">9.3</Font></td><td align="center" headers="Arizona year pct_of_prior indicators" wIDth="50"><Font size="-2">94</Font></td><td align="center" headers="Arizona 2nd_year pct_of_prior indicators" wIDth="50"><Font size="-2">93</Font></td><td align="center" headers="Arizona 2nd_year pct_of_prior indicators" wIDth="50"><Font size="-2">155</Font></td><td align="center" headers="Arizona avail_wks pct_of_prior indicators noinfo" wIDth="50"><Font size="-2"> </Font></td><td align="center" headers="Arizona dates periods status" wIDth="100"><Font size="-2">E 06-11-2011</Font></td></tr>soup = BeautifulSoup(text,'HTML5lib')soup.table.find_all('tr')[9] #same path,different result!Out[33]: <tr><td align="center" headers="Alaska noinfo" wIDth="25"><Font size="-2"> </Font></td><td align="center" headers="Alaska noinfo" wIDth="25"><Font size="-2"> </Font></td><td align="center" headers="Alaska noinfo" wIDth="25"><Font size="-2"> </Font></td><th align="left" ID="Alaska " wIDth="100"><Font size="-2">Alaska </Font></th><td align="center" headers="Alaska noinfo" wIDth="50"><Font size="-2">2</Font></td><td align="center" headers="Alaska noinfo" wIDth="50"><Font size="-2">2</Font></td><td align="center" headers="Alaska 13_week_IUR indicators" wIDth="50"><Font size="-2">3.82</Font></td><td align="center" headers="Alaska pct_of_prior_2years indicators" wIDth="50"><Font size="-2">90</Font></td><td align="center" headers="Alaska 3_mo_satur indicators" wIDth="50"><Font size="-2">7.6</Font></td><td align="center" headers="Alaska year pct_of_prior indicators" wIDth="50"><Font size="-2">96</Font></td><td align="center" headers="Alaska 2nd_year pct_of_prior indicators" wIDth="50"><Font size="-2">95</Font></td><td align="center" headers="Alaska 2nd_year pct_of_prior indicators" wIDth="50"><Font size="-2">117</Font></td><td align="center" headers="Alaska avail_wks pct_of_prior indicators noinfo" wIDth="50"><Font size="-2"> </Font></td><td align="center" headers="Alaska dates periods status" wIDth="100"><Font size="-2">E 06-11-2011</Font></td></tr>

更多关于bs4 docs:Differences Between Parsers.由于这个表在浏览器中呈现时看起来没问题,并且HTML5lib尝试以与浏览器相同的方式解析页面,所以这可能是一个安全的选择,这就是你想要的.

总结

以上是内存溢出为你收集整理的修复Python中破碎的HTML – Beautifulsoup无法正常工作全部内容,希望文章能够帮你解决修复Python中破碎的HTML – Beautifulsoup无法正常工作所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1193177.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存