通过从熊猫数据框中检查来替换单词

通过从熊猫数据框中检查来替换单词,第1张

通过从熊猫数据框中检查来替换单词

我会利用Pandas / NumPy索引。由于您的同义词映射是多对一的,因此您可以使用该

Word
列重新编制索引。

sd = sd.applymap(str.strip).applymap(str.lower).set_index('Word').Synonymsprint(sd)Worddrove          driveoffice      downtowneveryday       dailyday dailyName: Synonyms, dtype: object

然后,您可以轻松地将标记列表与其各自的同义词对齐。

words = nltk.word_tokenize(u'i drove to office everyday in my car')sentence = sd[words].reset_index()print(sentence)       Word  Synonyms0         i       NaN1     drove     drive2        to       NaN3    office  downtown4  everyday     daily5        in       NaN6        my       NaN7       car       NaN

现在,仍然可以使用的令牌

Synonyms
,回溯到
Word
。这可以通过以下方式实现

sentence = sentence.Synonyms.fillna(sentence.Word)print(sentence.values)[u'i' 'drive' u'to' 'downtown' 'daily' u'in' u'my' u'car']


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5662317.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存