CSV阅读器基准：Julia阅读CSV的速度比Python和R快10-20倍

2020-10-12 07:11:31

任何数据分析工作流程中的第一个任务就是简单地读取数据，这绝对必须快速有效地完成，这样才能开始更有趣的工作。在许多行业和领域，CSV文件格式是存储和共享表格数据的王道。快速可靠地加载CSV至关重要，它必须能够很好地扩展到各种文件大小、数据类型和形状。这篇文章比较了在三个不同的CSV解析器上读取8个不同的真实世界数据集的性能：R的Fread、Pandas的Read_CSV和Julia的CSV.jl。每一个解析器分别被选为R、Python和Julia的“同类最佳”CSV解析器。

这三个工具都强大地支持加载各种可能缺少值的数据类型，但只有Fread(R)和CSV.jl(Julia)支持多线程-Pandas只支持单线程CSV加载。Julia的CSV.jl还有一个独特之处，那就是它是唯一一个完全用高级语言实现的工具，而不是用C实现的，并且是从R/Python包装而来的。(Pandas确实有一个功能稍强的Python原生解析器，它的速度要慢得多，而且几乎所有READ_CSV的使用都默认使用Cengine。)。因此，这里的CSV.jl基准测试不仅表示在Julia中加载数据的速度，而且还指示在分析中使用的后续Julia代码中可能出现的各种性能。

以下基准测试显示，即使在单核上，Julia的CSV.jl也比Pandas快1.5到5倍；在启用多线程的情况下，它与R的Read_CSV一样快，甚至更快。用于基准测试的工具有针对Julia的BenchmarkTools.jl、针对R的MicroBenchmarkmark和针对Python的timeit。

让我们从一些同类数据集开始，即在所有列中都具有相同类型数据的数据集。本节中的数据集partfrom股价数据集派生自此基准站点。性能指标是线程数量从1增加到20时加载数据集所花费的时间。由于Pandas不支持多线程，因此所有内核计数都会全面报告单线程速度。

统一浮点数据集：第一个数据集包含以100万行和20列排列的浮点值。熊猫加载这个文件需要232毫秒。单线程data.table比CSV.jl快1.6倍。使用多线程时，CSV.jl表现最好，速度是data.table的两倍多。在没有多线程的情况下，CSV.jl比Pandas快1.5倍，而在多线程的情况下，CSV.jl的速度大约是Pandas的11倍。

统一字符串数据集(I)：此数据集包含所有列中的字符串值，具有100万行和20列。熊猫需要546毫秒来加载文件。对于R，添加线程似乎不会带来任何性能提升。单线程CSV.jl比data.table快2.5倍。在10个线程的情况下，它大约比data.table快14倍。

均匀字符串数据集(II)：此数据集的维度与上一数据集的维度相同。但是，每列也都有缺失值。熊猫需要300毫秒。在没有线程的情况下，CSV.jl比R快1.2倍，有线程时大约快5倍。

此数据集包含5,000万行和5列，大小为2.5 GB。AAPL股票有开盘价、高价、低价和收盘价。包含价格的四列是浮点值，还有一个日期列。

单线程CSV.jl大约比R的Fread from mdata.table快1.5倍。在多线程的情况下，CSV.jl大约快22倍！熊猫的Read_CSV阅读需要34秒，比R和Julia都慢。

混合数据集：此数据集有10k行和200列。列包含、字符串、浮点数、日期时间和缺失值。Pand需要大约400毫秒来加载此数据集。在没有线程的情况下，CSV.jl的速度是R的2倍，10线程的速度大约是R的10倍。

现在，让我们看看更广泛的数据集。Kaggle的这个抵押贷款风险数据集是一个混合类型的数据集，有356k行和2190列，列是异构的，具有String、Int、Float和Missing类型的值。熊猫需要119秒才能读入这个数据集。单线程Fread大约比CSV.jl快两倍。然而，在线程更多的情况下，Julia要么和R一样快，要么稍微快一点。

宽数据集：这是一个相当宽的数据集，有1000行和20,000列。数据集包含字符串和Int值。Pandasta读取数据集需要7.3秒。在这种情况下，单个theradeddata.table大约比CSV.jl快5倍。由于线程更多，CSV.jl与data.table竞争。在使用data.table的情况下，增加线程数量似乎不会带来任何性能提升。

Fannie Mae收购数据集：该数据集可以从Fannie Mae网站下载，该数据集有400万行和25列，值类型为Int、String、Float和Missing。

单线程data.table比CSV.jl快1.25倍。但是，CSV.jl的性能随着线程的增多而不断提高。使用多线程时，CSV.jl的速度大约是原来的4倍。

在所有8个数据集中，Julia的CSV.jl总是比Pandas快，并且在多线程的情况下，它与R的data.table竞争。

系统信息：执行基准测试的系统规格如下

$uname-aLinux南极5.6.0-CUSTOM+#1 SMP Mon Apr 6 00：47：33 EDT 2020 x86_64 GNU/Linux。

$lscpuArchitecture：x86_64CPU操作模式：32位，64位字节顺序：小端CPU：40个在线CPU列表：0-39个每核线程数：2个每插槽核数：10个插槽：2个NUMA节点：2个供应商ID：GenuineIntelCPU系列：6型号：85型号：85型号：英特尔(R)至强(R)银色4114 [email protected]步进：4CPU MHz：800.225 CPU最大MHz：300000 CPU min MHz：800.0000BogoMIPS：440000虚拟化：VT-xL1d高速缓存：32KL1高速缓存：1024KL3高速缓存：14080Knode0 CPU(秒)：0-100.25CPU MHz：3000.0000CPU min MHz：800.0000BogoMIPS：440000虚拟化：VT-xL1d高速缓存：32KL1高速缓存：1024KL3高速缓存：14080Knode0 CPU(秒)：0-100.25CPU MHz：300000 CPU MIPS：440000虚拟化：VT-xL1d高速缓存：32KL1高速缓存：1024KL3高速缓存：14080Knode0 CPU。9，20-29个NUMA节点1个CPU：10-19，30-39。

$free-h可用的可用空闲共享缓冲区/缓存总数内存：62G 3.3G 6.3G 352K 52G 58G斯瓦普：59G 3.2G 56G

https://juliacomputing.com/blog/2020/06/22/fast-csv.html

tags users