前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CPU靠边站!使用cuDF在GPU加速Pandas

CPU靠边站!使用cuDF在GPU加速Pandas

作者头像
量化投资与机器学习微信公众号
发布2019-09-29 17:21:04
8.6K0
发布2019-09-29 17:21:04
举报
文章被收录于专栏:量化投资与机器学习

前言

使用Pandas Dataframe执行数千甚至数百万次计算仍然是一项挑战。你不能简单的将数据丢进去,编写Python for循环,然后希望在合理的时间内处理数据。公众号在此之前的一篇文章专门介绍了一些方法,请点击查看:

高逼格使用Pandas加速代码,向for循环说拜拜!

尽管如此,即使加速,Pandas仍然只能在CPU上运行。由大家的CPU通常有8个或更少的核,因此达到的加速是有限的。我们的数据集可能有多达数百万、数十亿甚至数万亿个,8核不足以解决这个问题。

幸运的是,随着GPU加速在机器学习领域的成功普及,将数据分析库应用到GPU上有了强大的推动力。cuDF库就是朝这个方向迈出的一步。

cuDF

cuDF(https://github.com/rapidsai/cudf)是一个基于Python的GPU DataFrame库,用于处理数据,包括加载、连接、聚合和过滤数据。向GPU的转移允许大规模的加速,因为GPU比CPU拥有更多的内核。

cuDF的API是Pandas的一面镜子,在大多数情况下可以直接替代Pandas。这使得数据科学家、分析师和工程师很容易将其集成到他们的工作中。

那么,你所需做的是把你的Pandas DataFrame转换成cuDF。cuDF支持Pandas大多数常见的DataFrame操作,因此无需太多学习成本你就可以加速许多常规的Pandas代码

我们首先安装库文件:

下面是我们测试电脑的配置参数:

  • i7–8700k CPU
  • 1080 Ti GPU
  • 32 GB of DDR4 3000MHz RAM
  • CUDA 9.2

获得GPU加速

我们将加载一个包含随机数的Big数据集,并比较不同Pandas操作的速度与使用cuDF在GPU上执行相同操作的速度。

首先初始化Dataframes:一个用于Pandas,一个用于cuDF。DataFrame有超过1亿个单元格!

代码语言:javascript
复制
import pandas as pd
import numpy as np
import cudf

pandas_df = pd.DataFrame({'a': np.random.randint(0, 100000000, size=100000000),
                          'b': np.random.randint(0, 100000000, size=100000000)})
                          
cudf_df = cudf.DataFrame.from_pandas(pandas_df)

在我们的第一个测试中,让我计算一下 Pandas VS cuDF数据中a变量的平均值需要多长时间。%timeit 命令允许我们在Jupyter计算Python命令的速度。

https://docs.python.org/3.6/library/timeit.html

代码语言:javascript
复制
# Timing Pandas
# Output: 82.2 ms per loop
%timeit pandas_df.a.mean()

# Timing cuDF
# Output: 5.12 ms per loop
%timeit cudf_df.a.mean()

平均运行时间显示在代码注释中。我们得到了将近16倍的加速!

现在,做一些更复杂的事情,比如做一个大合并。将Dataframe本身合并到数据Dataframe的b列上。

这里的合并是一个非常大的操作,因为Pandas将不得不寻找并匹配公共值,对于一个有1亿行的数据集来说,这是一个非常耗时的操作!GPU加速将使这变得容易,因为我们有更多的并行进程可以一起工作。

代码:

代码语言:javascript
复制
# Timing Pandas
# Output: 39.2 s per loop
%timeit pandas_df.merge(pandas_df, on='b')

# Timing cuDF
# Output: 2.76 s per loop
%timeit cudf_df.merge(cudf_df, on='b')

即使使用i7-8700k CPU,Pandas完成合并平均也需要39.2秒。而cuDF在GPU上只花了2.76秒。14倍的加速!

快去试试吧!

—End—

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档