原文链接
KeyBERTLeveraging BERT to extract important keywordshttps://maartengr.github.io/KeyBERT/index.html
一种基于BERT的极简关键词提取方法。
关键词提取是通过查找文档中与文档本身最相似的词来完成的。首先,用BERT提取文档嵌入,得到文档级表示。然后,提取N-gram单词/短语的单词嵌入。最后,使用余弦相似性来查找与文档最相似的单词/短语。
那么,最相似的词可以被识别为最能描述整个文档的词。
pip install keybert
2.安装中文分词器-jieba
pip install jieba
3.提取中文关键词
3.1 文本转化成词共现矩阵
from sklearn.feature_extraction.text import CountVectorizer
import jieba
def tokenize_zh(text):
words = jieba.lcut(text)
return words
vectorizer = CountVectorizer(tokenizer=tokenize_zh)
3.1 提取关键词
from keybert import KeyBERT
kw_model = KeyBERT()
doc = "我爱北京天安门"
keywords = kw_model.extract_keywords(doc, vectorizer=vectorizer)
3.2 输出关键词
[('天安门', 0.7936), ('北京', 0.64), ('我', 0.5716), ('爱', 0.4095)]
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)