python 使用BeautifulSoup库提取div标签中的文本内容

python 使用BeautifulSoup库提取div标签中的文本内容,第1张

因为你的html不是合法的xml格式,标签没有成对出现,只能用html解析器

from bs4 import BeautifulSoup

s = """

</span><br><span style= 'font-size:120pt;color:#CC3399'>714659079qqcom    2014/09/10 10:14</span></p></div>

"""

soup = BeautifulSoup(s, "htmlparser")

print soup

print soupget_text()

如果你想用正则的话,只要把标签匹配掉就可以了

import re

s = """

</span><br><span style= 'font-size:120pt;color:#CC3399'>714659079qqcom    2014/09/10 10:14</span></p></div>

"""

dr = recompile(r'<[^>]+>', reS)

dd = drsub('', s)

print dd

如果解决了您的问题请采纳!

如果未解决请继续追问

claimtext = rootgetElementsByTagName("claim-text")

for i in claimtext[0]childNodes:

    print inodeName  #你自己看哈 这里的 inodeName 有俩个类型 br #text ,所以取的时候加个类型判断吧 

    if  inodeName == '#text':

        print inodeValue

这玩意这么不好使 要不是 试试 beautifulsoup  这个html 解析标签 效果应该 嘎嘎的

使用正则,引入re包

import re

str1 = '<span data-reactid="21$55012701000001">200</span>'

result = refindall(r'<span data-reactid="21\$55012701000001">(\d+)</span>', str1)

print(result)

以上就是关于python 使用BeautifulSoup库提取div标签中的文本内容全部的内容,包括:python 使用BeautifulSoup库提取div标签中的文本内容、python解析xml文件如何读取所有<br />标签的内容、python+selenium3怎么取出span标签中的内容等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9333616.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存