计算熊猫数据框中的不同单词

毕业论文答辩ppt • 2022-12-15 • 随笔 • 阅读 13

计算熊猫数据框中的不同单词

使用

set

来创建唯一元素的序列。

进行一些清理

df

以使小写字母的字符串分解：

df['text'].str.lower().str.split()Out[43]: 0  [my, nickname, is, ft.jgt]1    [someone, is, going, to, my, place]

该列中的每个列表都可以传递给

set.update

函数以获取唯一值。使用

apply

这样做：

results = set()df['text'].str.lower().str.split().apply(results.update)print(results)set(['someone', 'ft.jgt', 'my', 'is', 'to', 'going', 'place', 'nickname'])

或与

Counter()

from注释一起使用：

from collections import Counterresults = Counter()df['text'].str.lower().str.split().apply(results.update)print(results)

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5616708.html

熊猫字符串注释序列分解

打赏

微信扫一扫

支付宝扫一扫

毕业论文答辩ppt 一级用户组

0 0

如何在Python中解析对变量的引用

上一篇 2022-12-15

使用numpy在python中进行向量化空间距离

下一篇 2022-12-15

发表评论

登录后才能评论

计算熊猫数据框中的不同单词

发表评论

评论列表（0条）