python-使用pandas.to_hdf快速读取df中的指定列

我有一个2Gb的数据帧,只能写入一次,读取很多df.
我想在 pandas 中使用df,因此我以固定的格式使用df.read_hdf和df.to_hdf,该格式在读写方面相当不错.

但是,df越来越大,增加了更多的列,因此我想改用表格式,因此我可以选择读取数据时需要的列.我以为这会给我带来速度上的优势,但是从测试来看似乎并非如此.

这个例子:

import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randn(10000000,9),columns=list('ABCDEFGHI'))
%time df.to_hdf("temp.h5", "temp", format ="fixed", mode="w")
%time df.to_hdf("temp2.h5", "temp2", format="table", mode="w")

显示固定格式稍微快一点(我的机器上为6.8秒vs 5.9秒).

然后读取数据(稍作休息以确保文件已完全保存):

%time x = pd.read_hdf("temp.h5", "temp")
%time y = pd.read_hdf("temp2.h5", "temp2")
%time z = pd.read_hdf("temp2.h5", "temp2", columns=list("ABC"))

产量:

Wall time: 420 ms (fixed)   
Wall time: 557 ms (format)   
Wall time: 671 ms (format, specified columns)

我确实知道固定格式读取数据的速度更快,但是为什么
具有指定列的df比读取整个数据帧慢?与固定格式相比,使用表格式(有或没有指定列)有什么好处?

当df变得更大时,是否有存储优势?

最佳答案

IMO将format =’table’与data_columns = [list_of_indexed_columns]结合使用的主要优点是能够有条件地(请参见where =“ where子句”参数)读取大型HDF5文件.这样您就可以在读取和分块处理数据时过滤数据,以避免MemoryError.

您可以尝试将单个列或列组(大多数情况下会一起读取)保存在不同的HDF文件或使用不同键的同一文件中.

我还会考虑使用“尖端”技术-Feather-Format

测试和时间安排:

import feather

以三种格式写入磁盘:(固定的HDF5,HDF%表,羽毛)

df = pd.DataFrame(np.random.randn(10000000,9),columns=list('ABCDEFGHI'))
df.to_hdf('c:/temp/fixed.h5', 'temp', format='f', mode='w')
df.to_hdf('c:/temp/tab.h5', 'temp', format='t', mode='w')
feather.write_dataframe(df, 'c:/temp/df.feather')

从磁盘读取:

In [122]: %timeit pd.read_hdf(r'C:\Temp\fixed.h5', "temp")
1 loop, best of 3: 409 ms per loop

In [123]: %timeit pd.read_hdf(r'C:\Temp\tab.h5', "temp")
1 loop, best of 3: 558 ms per loop

In [124]: %timeit pd.read_hdf(r'C:\Temp\tab.h5', "temp", columns=list('BDF'))
The slowest run took 4.60 times longer than the fastest. This could mean that an intermediate result is being cached.
1 loop, best of 3: 689 ms per loop

In [125]: %timeit feather.read_dataframe('c:/temp/df.feather')
The slowest run took 6.92 times longer than the fastest. This could mean that an intermediate result is being cached.
1 loop, best of 3: 644 ms per loop

In [126]: %timeit feather.read_dataframe('c:/temp/df.feather', columns=list('BDF'))
1 loop, best of 3: 218 ms per loop  # WINNER !!!

PS,如果您在使用feather.write_dataframe(…)时遇到以下错误:

FeatherError: Invalid: no support for strided data yet 

这是一种解决方法:

df = df.copy()

之后feather.write_dataframe(df,path)应该正常工作…