所有熊猫细胞的均化

所有熊猫细胞的均化,第1张

所有熊猫细胞的均化

您可以使用

apply
来自pandas的函数来对给定字符串中的每个单词进行词素化。请注意,有很多方法可以标记文本。您可能必须删除符号,例如
.
如果使用空白标记器。

下面,我给出一个示例,说明如何对示例数据框的列进行定标。

import nltkw_tokenizer = nltk.tokenize.WhitespaceTokenizer()lemmatizer = nltk.stem.WordNetLemmatizer()def lemmatize_text(text):    return [lemmatizer.lemmatize(w) for w in w_tokenizer.tokenize(text)]df = pd.Dataframe(['this was cheesy', 'she likes these books', 'wow this is great'], columns=['text'])df['text_lemmatized'] = df.text.apply(lemmatize_text)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5674926.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存