命名的实体分块器将为您提供包含分块和标签的树。您不能更改它,但是可以取出标签。从您的开始
tagged_sent:
chunks = nltk.ne_chunk(tagged_sent)simple = []for elt in chunks: if isinstance(elt, Tree): simple.append(Tree(elt.label(), [ word for word, tag in elt ])) else: simple.append( elt[0] )
如果只需要块,则忽略
else:上面的子句。您可以修改代码以任意方式包装大块。我使用nltk
Tree将更改保持在最低限度。请注意,某些块包含多个单词(尝试在示例中添加“
New York”),因此,块的内容必须是列表,而不是单个元素。
PS。“
GPE”代表“地缘政治实体”(显然是一个大块的错误)。您可以在此处找到nltk书中的“常用标签”列表。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)