datatable:比pandas更快的GB量级的库

2009 年 6 月 7 日

虽然pandas是数据分析、机器学习等必备利器，但现在流行的机器学习应用训练模型动辄需要GB级别的数据，很多时候pandas无法快速读取大数据文件或者进行高效运算，甚至可能存在内存溢出等情况。

如果是R语言的用户应该很熟悉data.table库，该库是R语言中data.frame库的拓展库，可以让R语言用户轻松处理海量数据，比如让电脑很轻松高速地读取100Gb文件。现在python生态圈也有了自己的data.table，这个库的名字叫做datatable。目前datatable不支持windows系统，相应的windows版本正在开发中。

一、读取数据

读取的数据先转化为Frame对象，是一种拥有很多行很多列的二维数组，功能类似于DataFrame或者SQL表。

我们用的测试数据来源于Kaggle的lending数据集 https://www.kaggle.com/wendykan/lending-club-loan-data#loan.csv，该数据集包括2007-2015年的含有相关145个特征，共计226万条贷款记录。文件大概700M，我们可以使用pandas和datatable库分别读取，测试读取速度

Run

再来看看pandas读取

从上面两个读取方式看，pandas用时1分钟，而datatable用时14.2秒

二、 Frame转换

datatable读取数据可以转化为pd.DataFrame

正常来讲使用datatable读取数据再转化为pd.DataFrame格式比直接使用pandas读取要快一些。

三、基本的Frame属性

显示前10行

字段名的颜色表示数据类型，其中红色表示文本，绿色表示整数，蓝色表示浮点型。

四、描述性统计

在pandas中进行描述性统计是一件很吃内存的进程，但datatable不怕这事。

例如我们分别使用datatable和pandas来计算mean

因为会抛出内存错误，上面的 pandas_df.mean() 无法在pandas中完成，所以大邓将代码加上注释，防止大家运行崩溃。

五、数据操作

数据的操作方法与dataframe类似

5.1 数据选择

选中所有行，列只选择funded_amnt列

5.2 排序

根据 funded_ amnt_ inv 列进行排序

CPU times: user 534 ms, sys: 67.96 ms, total: 602 ms

还别说，datatable一眨眼功夫就出来，排序真的很快

而pandas排序用了12.4s，慢！

5.3 删除列

删除指定列，如下。

5.4 条件筛选

条件筛选也跟dataframe很类似，这里要注意代码中的f代指的是Frame。输出的数据行列分别:

所有的行中loan_ amnt要大于funded_ amnt
只输出loan_amnt列

5.5 保存结果

总结

与鼎鼎大名的pandas相比，datatable有很高效的执行速度，这在处理大型数据集时肯定是一个福音。然而就功能而言，datatable落后于pandas。但由于datatable仍在更新迭代，我们可能会在未来看到该库的一些重要补充。

M	T	W	T	F	S	S
« Jan
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

演道网

datatable:比pandas更快的GB量级的库

一、读取数据

二、 Frame转换

三、基本的Frame属性

四、描述性统计

五、数据操作

5.1 数据选择

5.2 排序

5.3 删除列

5.4 条件筛选

5.5 保存结果

总结

About The Author

fenny

一、读取数据

二、 Frame转换

三、基本的Frame属性

四、描述性统计

五、数据操作

5.1 数据选择

5.2 排序

5.3 删除列

5.4 条件筛选

5.5 保存结果

总结

Related Posts

About The Author

fenny