所有熊猫细胞的均化

拉萨河 • 2022-12-16 • 随笔 • 阅读 21

所有熊猫细胞的均化

您可以使用

apply

来自pandas的函数来对给定字符串中的每个单词进行词素化。请注意，有很多方法可以标记文本。您可能必须删除符号，例如

如果使用空白标记器。

下面，我给出一个示例，说明如何对示例数据框的列进行定标。

import nltkw_tokenizer = nltk.tokenize.WhitespaceTokenizer()lemmatizer = nltk.stem.WordNetLemmatizer()def lemmatize_text(text):    return [lemmatizer.lemmatize(w) for w in w_tokenizer.tokenize(text)]df = pd.Dataframe(['this was cheesy', 'she likes these books', 'wow this is great'], columns=['text'])df['text_lemmatized'] = df.text.apply(lemmatize_text)

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5674926.html

示例词素标记定标熊猫

打赏

微信扫一扫

支付宝扫一扫

拉萨河一级用户组

0 0

使用Python跨平台列出Linux，Windows和Mac上磁盘驱动器的方法？

上一篇 2022-12-17

如何在Python中创建只读类属性？[重复]

下一篇 2022-12-17

发表评论

登录后才能评论

所有熊猫细胞的均化

发表评论

评论列表（0条）