with open(文本路径,"rb"拿戚) as f:
data=f.read()
data=str(data,utf=8)
a=re.research(".+=.*g.*",data)
for i in a:
c,d=i.split("=")
print(c)
注:a的赋值表达式中g为你要找的字符
思路就是这样,你可以消洞陵修改颤派一点
python 根据正则表达式提取指定的内容正则表达式是极其强大的,利用正则表达式来提取想要的内容是很方便的事。
实例代码:
import re# 正则表达式是极其强大的,利用正则表达式来提取想要的内容是很方便的事。# 下面缺誉演示了在python里,通过正则表达式来提取符合要求的内容。有几个要注意# 的地方就是:# [1] 要用()将需要的内容包含起来# [2] 编号为0的group是整个符合正则表达式的内伏孙段容,编号为1的是第一个(及对应# 的)包含的内容# @param regex: regular expression, use () to group the result# 正则表达式,用()将要提取的内容包含起来# @param content: # @param index: start from 1, depends on the \p regex's ()# 从1开始,可以通过数(来得到,其中凯迹0是全部匹配# @return: the first match of the \p regex# 只返回第一次匹配的内容def extractData(regex, content, index=1): r = '0' p = re.compile(regex) m = p.search(content) if m: r = m.group(index) return r regex = r'第(.*)场雪'content = '2002年的第一场雪'index = 1print extractData(regex, content, index)
给定一个或多个搜索词,如“高血压 患者”,从已有的若干篇文本中找出最相关的(n篇)文本。
文本检索(text retrieve)的常用策略是:用一个ranking function根据搜索词对所有文本进行排序,选取前n个,就像百度搜索一样。
结巴分词后的停用词性 [标点符号、连词、助词、副词、介词、时语素、‘的’缓祥、数词、方位词、代词胡哪宽]
对一篇文章分词、去停用词
对目录下的所有文本进行预处理裤亮,构建字典
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)