python – 用于迭代字符串列表中的字符的最快对象

python – 用于迭代字符串列表中的字符的最快对象,第1张

概述我正在迭代单词列表以找到单词之间最常用的字符(即在列表中[hello,hank],’h’计为出现两次,而’l’计为出现一次.). python列表工作正常,但我也在研究NumPy(dtype数组?)和Pandas.看起来Numpy可能是要走的路,但还有其他的套餐要考虑吗?我怎么能更快地使这个功能? 问题代码: def mostCommon(guessed, li): count = Cou 我正在迭代单词列表以找到单词之间最常用的字符(即在列表中[hello,hank],’h’计为出现两次,而’l’计为出现一次.). python列表工作正常,但我也在研究NumPy(dtype数组?)和Pandas.看起来Numpy可能是要走的路,但还有其他的套餐要考虑吗?我怎么能更快地使这个功能?

问题代码:

def mostCommon(guessed,li):    count = Counter()    for words in li:          for letters in set(words):              count[letters]+=1    return count.most_common()[:10]

谢谢.

解决方法 这是使用其观点概念的NumPy方法 –

def tabulate_occurrences(a):           # Case sensitive    chars = np.asarray(a).vIEw('S1')    valID_chars = chars[chars!='']    unqchars,count = np.unique(valID_chars,return_counts=1)    return pd.DataFrame({'char':unqchars,'count':count})def topNchars(a,N = 10):               # Case insensitive    s = np.core.defchararray.lower(a).vIEw('uint8')    unq,count = np.unique(s[s!=0],return_counts=1)    sIDx = count.argsort()[-N:][::-1]    h = unq[sIDx]    return [str(unichr(i)) for i in h]

样品运行 –

In [322]: a = ['er','IS','you','Is','is','er','IS']In [323]: tabulate_occurrences(a) # Case sensitiveOut[323]:   char  count0    I      31    S      22    e      23    i      14    o      15    r      26    s      27    u      18    y      1In [533]: topNchars(a,5)         # Case insensitiveOut[533]: ['s','i','r','e','y']In [534]: topNchars(a,10)        # Case insensitiveOut[534]: ['s','y','u','o']
总结

以上是内存溢出为你收集整理的python – 用于迭代字符串列表中的字符的最快对象全部内容,希望文章能够帮你解决python – 用于迭代字符串列表中的字符的最快对象所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1193831.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存