好…经过大量挖掘,这是怎么回事。Pandas
Dataframe使用
BlockManager该类在内部组织数据。与文档相反,
Dataframe不是系列的集合,而是
类似dtyped矩阵的集合
。BlockManger将所有float列组合在一起,将所有int列组合在一起,等等…,并且它们的内存(据我所知)保持在一起。
如果提供单个
ndarray矩阵(单个类型),则无需复制内存即可做到这一点。请注意,BlockManager(理论上)还支持在其构造中不复制混合类型数据,因为可能不必将此输入复制到相同类型的块中。但是,如果单个矩阵是数据参数,则Dataframe构造函数不会仅进行复制。
简而言之,如果您将混合类型或多个数组作为构造函数的输入,或者为dict提供单个数组,则您在Pandas中不走运,Dataframe的默认BlockManager将复制您的数据。
无论如何,解决此问题的一种方法是强制
BlockManager不要按类型合并,而是将每列保留为单独的“块”。所以,有了猴子修补魔法…
from pandas.core.internals import BlockManager class BlockManagerUnconsolidated(BlockManager): def __init__(self, *args, **kwargs): BlockManager.__init__(self, *args, **kwargs) self._is_consolidated = False self._known_consolidated = False def _consolidate_inplace(self): pass def _consolidate(self): return self.blocks def df_from_arrays(arrays, columns, index): from pandas.core.internals import make_block def gen(): _len = None p = 0 for a in arrays: if _len is None: _len = len(a) assert len(index) == _len assert _len == len(a) yield make_block(values=a.reshape((1,_len)), placement=(p,)) p+=1 blocks = tuple(gen()) mgr = BlockManagerUnconsolidated(blocks=blocks, axes=[columns, index]) return pd.Dataframe(mgr, copy=False)
如果指定copy = False,则Dataframe或BlockManger最好具有consolidate = False(或假设有此行为)。
去测试:
def assert_readonly(iloc): try:iloc[0] = 999 # Should be non-editableraise Exception("MUST BE READ onLY (1)") except ValueError as e:assert "read-only" in e.message # Original ndarray n = 1000 _arr = np.arange(0,1000, dtype=float) # Convert it to a memmap mm = np.memmap(filename, mode='w+', shape=_arr.shape, dtype=_arr.dtype) mm[:] = _arr[:] del _arr mm.flush() mm.flags['WRITEABLE'] = False # Make immutable! df = df_from_arrays( [mm, mm, mm], columns=['a', 'b', 'c'], index=range(len(mm))) assert_read_only(df["a"].iloc) assert_read_only(df["b"].iloc) assert_read_only(df["c"].iloc)
对于我来说,将
BlockManager类似类型的数据保存在一起是否真的有实际的好处-在Pandas中的大多数 *** 作都是按行标签或逐列进行 *** 作-
这是
Dataframe由于结构的异构通常仅通过其索引关联的列。尽管可行的是,他们在每个“块”中保留一个索引,但是如果索引在块中保留偏移量,则可以从中受益(如果是这种情况,那么他们应该按进行分组
sizeof(dtype),我认为情况并非如此)。呵呵…
关于提供非复制构造函数的PR进行了一些讨论,但被放弃了。
看来有逐步淘汰BlockManager的明智计划,因此您的工作量很多。
另请参阅引擎盖下的熊猫,这对我很有帮助。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)