这或多或少是做到这一点的方法:
>>> import re>>> re.findall(r"[w']+|[.,!?;]", "Hello, I'm a string!")['Hello', ',', "I'm", 'a', 'string', '!']
诀窍是,不要考虑在哪里分割字符串,而是要考虑在令牌中包含什么。
注意事项:
- 下划线(_)被认为是内部单词字符。如果不需要,请替换 w。
- 这不适用于字符串中的(单引号)。
- 将要使用的所有其他标点符号放在正则表达式的右半部分。
- 回复中未明确提及的所有内容均被静默删除。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)