怎么去除文本中的HTML标签,我要显示成纯文本

怎么去除文本中的HTML标签,我要显示成纯文本,第1张

工具/材料:Microsoft Office Word2016版,Word文档。

1、首先选中Word文档,双击打开。

2、其次在该界面中,选中带HTML标签的文本

3、接着在该界面中,右键点击“剪切”选项。

4、其次在该界面中,右键点击“只粘贴文本”选项。

5、最后在该界面中,成功显示成纯文本。

第一个函数:将一个字段中的刮号去除

第二个函数:将html中的所有标签去除

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import MySQLdb

import sys

import re

我一般使用BeautifulSoup,还是比较简单的

soup=BeaitifulSoup(html,'html.parser')

要找到某各元素使用find_all方法就行

for div in soup.find_all('div'):

但是经常会遇到网站有反爬的设置,比如子结点中含有换行符,只要写个函数去掉子结点间的换行符就行


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/6137187.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-16
下一篇 2023-03-16

发表评论

登录后才能评论

评论列表(0条)

保存