将字符串拆分为单词和标点符号

将字符串拆分为单词和标点符号,第1张

字符串拆分为单词标点符号

这或多或少是做到这一点的方法:

>>> import re>>> re.findall(r"[w']+|[.,!?;]", "Hello, I'm a string!")['Hello', ',', "I'm", 'a', 'string', '!']

诀窍是,不要考虑在哪里分割字符串,而是要考虑在令牌中包含什么。

注意事项:

  • 下划线(_)被认为是内部单词字符。如果不需要,请替换 w。
  • 这不适用于字符串中的(单引号)。
  • 将要使用的所有其他标点符号放在正则表达式的右半部分。
  • 回复中未明确提及的所有内容均被静默删除。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5631167.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存