因为你的html不是合法的xml格式,标签没有成对出现,只能用html解析器
from bs4 import BeautifulSoups = """
</span><br><span style= 'font-size:120pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>
"""
soup = BeautifulSoup(s, "htmlparser")
print soup
print soupget_text()
如果你想用正则的话,只要把标签匹配掉就可以了
import res = """
</span><br><span style= 'font-size:120pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>
"""
dr = recompile(r'<[^>]+>', reS)
dd = drsub('', s)
print dd
如果解决了您的问题请采纳!
如果未解决请继续追问
claimtext = rootgetElementsByTagName("claim-text")
for i in claimtext[0]childNodes:
print inodeName #你自己看哈 这里的 inodeName 有俩个类型 br #text ,所以取的时候加个类型判断吧
if inodeName == '#text':
print inodeValue
这玩意这么不好使 要不是 试试 beautifulsoup 这个html 解析标签 效果应该 嘎嘎的
使用正则,引入re包
import restr1 = '<span data-reactid="21$55012701000001">200</span>'
result = refindall(r'<span data-reactid="21\$55012701000001">(\d+)</span>', str1)
print(result)
以上就是关于python 使用BeautifulSoup库提取div标签中的文本内容全部的内容,包括:python 使用BeautifulSoup库提取div标签中的文本内容、python解析xml文件如何读取所有<br />标签的内容、python+selenium3怎么取出span标签中的内容等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)