您可以使用
apply来自pandas的函数来对给定字符串中的每个单词进行词素化。请注意,有很多方法可以标记文本。您可能必须删除符号,例如
.如果使用空白标记器。
下面,我给出一个示例,说明如何对示例数据框的列进行定标。
import nltkw_tokenizer = nltk.tokenize.WhitespaceTokenizer()lemmatizer = nltk.stem.WordNetLemmatizer()def lemmatize_text(text): return [lemmatizer.lemmatize(w) for w in w_tokenizer.tokenize(text)]df = pd.Dataframe(['this was cheesy', 'she likes these books', 'wow this is great'], columns=['text'])df['text_lemmatized'] = df.text.apply(lemmatize_text)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)