您可以将其与Dask.dataframe并行化。
>>> dmaster = dd.from_pandas(master, npartitions=4)>>> dmaster['my_value'] = dmaster.original.apply(lambda x: helper(x, slave), name='my_value'))>>> dmaster.compute() original my_value0 this is a nice sentence 21 this is another one 32 stackoverflow is nice 1
另外,您应该在这里考虑使用线程与进程之间的权衡。模糊字符串匹配几乎可以肯定不会释放GIL,因此使用多个线程不会有任何好处。但是,使用进程将导致数据序列化并在您的计算机中移动,这可能会使速度变慢。
您可以通过管理方法的
get=关键字参数,在使用线程和进程或分布式系统之间进行实验
compute()。
import dask.multiprocessingimport dask.threaded>>> dmaster.compute(get=dask.threaded.get) # this is default for dask.dataframe>>> dmaster.compute(get=dask.multiprocessing.get) # try processes instead
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)