BlazingSQL 是基于英伟达 RAPIDS 生态系统构建的 GPU 加速 SQL 引擎,可以为各种 ETL 大数据集提供 SQL 接口,并且完全运行在 GPU 之上。近日,其研发团队 宣布,BlazingSQL 基于 Apache 2.0 许可完全开源!
开源项目地址:
https://github.com/blazingdb/pyBlazing/
关于 BlazingSQL
BlazingSQL 是一个基于英伟达 RAPIDS 生态系统构建的 GPU 加速 SQL 引擎。RAPIDS 包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在 GPU 上执行端到端的数据科学计算和分析管道。RAPIDS 基于 Apache Arrow 列式存储格式,其中 cuDF 是一个 GPU DataFrame 库,用于加载、连接、聚合、过滤和操作数据。BlazingSQL 是面向 cuDF 的 SQL 接口,具备支持大规模数据科学工作流和企业数据集的各种功能。
官方称,BlazingSQL(几乎)可以处理任何你想要的数据。它的前身是 BlazingDB,但因为它并不是一个数据库,所以研发团队将 BlazingDB 改名为 BlazingSQL。
BlazingSQL 主要特性:
BlazingSQL 解决的痛点
在开发团队看来,迄今为止,SQL 是每一个主流分析生态系统的支柱之一,RAPIDS 是下一代分析生态系统,而 BlazingSQL 是 RAPIDS 的 SQL 标准。
BlazingSQL 完全基于 cuDF 和 cuIO 构建,这些项目的新功能会直接影响 BlazingSQL 的功能和性能。同时,由于 BlazingSQL 运行在 GDF 上,它与 RAPIDS 的所有库都是 100%可互操作的。
如果你正在使用 RAPIDS,或者正在考虑使用 RAPIDS,BlazingSQL 将为你提供更多便利,包括但不限于:
BlazingSQL 性能表现
目前,BlazingSQL+RAPIDS 已经上线 Google Colab,研发团队在 GCP 上搭建了两个价格相当的集群,一个用于 Spark,另一个用于 BlazingSQL。他们在集群上运行端到端的数据分析工作负载:从数据湖到 ETL/ 特征工程,再到 XGBoost 训练,并对 Spark 和 BlazingSQL 的性能进行了对比测试。
研发人员在超过两千万行 Netflow 数据上运行两次相同的特定工作负载。首先运行 BlazingSQL + RAPIDS,然后使用 PySpark(Spark 2.4.1)再次运行,得到如下结果:
如果把从 Google Drive 中加载 CSV 到各自 DataFrame 所需的时间考虑在内,BlazingSQL 比 Spark 快 71 倍。
越小越好
如果只看 ETL 时间,则 BlazingSQL 和 RAPIDS 的速度比 Spark 快 100 倍!
越小越好
运行以下 Colab 演示,用户可以使用免费英伟达 T4 GPU 资源进行同样的测试,对 BlazingSQL 的实际效果进行验证:
https://colab.research.google.com/drive/1EbPE9FwFur7fE2054BH9s23Kd0FiUgGo
据 介绍,BlazingSQL 大部分性能提升来自团队的内部引擎项目,BlazingSQL 团队的工程师们希望开发一种专为 GPU DataFrames(GDF)构建的 GPU 执行内核,称之为“SIMD 表达式解释器”(SIMD Expression Interpreter)。研发团队分享了一些关于 SIMD 表达式解释器的细节,SIMD 表达式解释器通过几个关键步骤带来提升性能:
SELECT colA + colB * 10,sin(colA) - cos(colD)FROM tableA
在以前,BlazingSQL 会将这条查询语句转换为 5 个操作(+,*,sin,cos, - ),每个操作都需要单独执行。在使用 SIMD 表达式解释器后,它会同时接收(colA、colB、colD)作为输入,并在单次内核执行中执行所有 5 个操作,最终生成两个输出。这意味着 colA 只需要加载一次,而不是两次。
目前,SIMD 表达式解释器支持 BlazingSQL 的过滤和投影,因此它对许多主流的 SQL 查询都有影响。
如何使用 BlazingSQL
使用 BlazingSQL 在 Amazon S3 中查询 CSV 文件的示例代码:
from blazingsql import BlazingContext bc = BlazingContext() bc.s3('dir_name', bucket_name='bucket_name', access_key_id='access_key', secrect_key='secret_key') # Create Table from CSV bc.create_table('taxi', '/dir_name/taxi.csv') # Query result = bc.sql('SELECT count(*) FROM taxi GROUP BY year(key)').get() result_gdf = result.columns #Print GDF print(result_gdf)
更多 BlazingSQL 的操作方法参见:
GitHub 项目链接:https://github.com/blazingdb/pyBlazing/
官方网站:https://docs.blazingdb.com/docs/using-blazingsql
领取专属 10元无门槛券
私享最新 技术干货