从python中的字符串中剥离不可打印的字符

从python中的字符串中剥离不可打印的字符,第1张

从python中的字符串中剥离不可打印的字符

不幸的是,在Python中遍历字符串相当慢。对于这种事情,正则表达式的速度要快一个数量级。您只需要自己构建角色类即可。该 unipredata
模块是这个相当有帮助,尤其是 unipredata.category()
函数。有关类别的说明,请参见Unipre字符数据库。

import unipredata, re, itertools, sysall_chars = (chr(i) for i in range(sys.maxunipre))categories = {'Cc'}control_chars = ''.join(c for c in all_chars if unipredata.category(c) in categories)# or equivalently and much more efficientlycontrol_chars = ''.join(map(chr, itertools.chain(range(0x00,0x20), range(0x7f,0xa0))))control_char_re = re.compile('[%s]' % re.escape(control_chars))def remove_control_chars(s):    return control_char_re.sub('', s)

对于Python2

import unipredata, re, sysall_chars = (unichr(i) for i in xrange(sys.maxunipre))categories = {'Cc'}control_chars = ''.join(c for c in all_chars if unipredata.category(c) in categories)# or equivalently and much more efficientlycontrol_chars = ''.join(map(unichr, range(0x00,0x20) + range(0x7f,0xa0)))control_char_re = re.compile('[%s]' % re.escape(control_chars))def remove_control_chars(s):    return control_char_re.sub('', s)

对于某些用例,最好使用其他类别(例如,来自 控制 组的所有类别),尽管这可能会减慢处理时间并显着增加内存使用。每个类别的字符数:

  • Cc
    (控制):65
  • Cf
    (格式):161
  • Cs
    (代理):2048
  • Co
    (私人使用):137468
  • Cn
    (未分配):836601

编辑 从注释中添加建议。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5674392.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存