前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据库的 IO 到底有多慢?

数据库的 IO 到底有多慢?

原创
作者头像
朱迪
发布2024-04-25 10:12:49
1310
发布2024-04-25 10:12:49
举报
文章被收录于专栏:数据计算数据计算

有过多年应用开发经验的同学大都会体验过数据库 IO 比较慢的情况,但到底会慢到什么程度,特别是和其它读写数据的手段相比的差距,可能很多人还没有感性认识。 Java 是普遍采用的应用开发技术,我们来实际测试一下,Java 程序从 Oracle 和 MySQL 这两种典型数据库中读数的性能,并和读文本文件对比。 用国际标准 TPCH 的工具生成数据表,选用其中的 customer 表,3000 万行,8 个字段。生成的原始文本文件有 4.9G。将这些数据导入到 Oracle 和 MySQL 中。 硬件环境是单台 2CPU 共 16 核的服务器,文本文件和数据库都在 SSD 硬盘上。所有测试都在本机完成,没有实质上的网络传输时间。

Java 代码直接写起来比较麻烦,我们这里用 SPL 编写,SPL 就是简单封装了 Java 的读数动作,最后都是通过数据库的 JDBC 驱动取数,不会影响性能。这里用 SPL 游标取出数据并且全部转换成内存对象才算是完整的读数动作。

A

1

=now()

2

=connect("oracle")

3

=A2.cursor@x("select * from customer")

4

for A3,10000

5

=interval@s(A1,now())

将整个 3000 万行的表全部读出,Oracle 大约耗时 280 秒,平均每秒 10 万行,MySQL 约 380 秒,平均每秒 8 万行。 读取速度和字段数量及数据类型都相关,当然也和硬件环境相关,所以这个测试结果只能作为一种参考,换了环境可能会相差很大。

但同等环境下和其它数据读取手段就有可比性了,我们还是用 SPL 直接读取 TPCH 生成的文本文件:

A

1

=now()

2

=file("/home/tpch/customer.tbl")

3

=A2.cursor(;,"|")

4

for A3,10000

5

=interval@s(A1,now())

和数据库的测试一样,用 SPL 游标取出数据并转换成内存对象。读完 3000 万行仅用了 42 秒。比 Oracle 快了 6 倍多,比 MySQL 快了 9 倍! 我们知道,文本解析是非常麻烦的事情,非常消耗 CPU,但即使这样,从文本文件读数还是远远快于从数据库读数。

我们再来测试二进制文件,感受一下文本解析造成的性能损失。 为了对比明显以及后面还要做的并行测试,我们换了更大的 orders 表,有 3 亿行,9 个字段。从文本文件读数的代码和刚才类似,实测耗时 483 秒 将这个文本文件转换成 SPL 的组表文件,再测试读取速度:

A

1

=now()

2

=file("/home/tpch/orders.ctx").open()

3

=A2.cursor()

4

for A3,10000

5

=interval@s(A1,now())

耗时 164 秒,大概比读文本文件快 3 倍。 这是情理之中的事,因为二进制数据不再需要解析,可以直接产生对象,计算量少了很多,因而要更快。

按说数据库存储也是二进制格式,也没有文本解析的麻烦。因为要考虑写入而不能压缩,速度赶不上紧凑的 SPL 组表还算是正常的,但比文本文件还慢就有点难以理解了。 事实上,如果用 SQL 针对这个数据表做一次遍历式的聚合运算,返回很小的结果集,就会发现速度也挺快,会比基于文本文件上做同样运算快得多。这说明在数据库内部遍历数据表并不慢,也就是说这个存储格式本身的性能并不差。 慢都慢在接口上了,就是 JDBC 的驱动非常慢。这甚至会让人感觉是故意而为,就是期望甚至强迫数据不要出库,一切运算都放在数据库内实现。 这样,我们会有一个结论:追求大数据计算性能的时候,不能从数据库临时读数来计算,计算任务最好不要出库。如果某个任务一定要读出数据才能计算(因为有时 SQL 很难写甚至写不出来某些计算逻辑),那就别把数据放进数据库中了。数据继续在数据库中,而在外部无论怎样实现高性能算法,大部分情况都是无济于事的,除非数据量很小。 所以,以提升 SQL 计算性能为目标的 SPL 必须自己实现某种存储格式,不可能基于数据库的存储实现高性能。

如果场景实在需要从数据库中读出数据,又有什么办法提速呢? 仅仅是接口速度慢,也就是说这个慢并不是数据库负担重造成的,这时候可以使用并行技术来提速。 Java 实现多线程并行有点麻烦,我们用 SPL 写出并行取数的代码来测试:

A

B

1

=now()

2

=connect("oracle").query@ix("SELECT COUNT(*) FROM CUSTOMER")(1)

3

>n=6

4

=n.([int(A2/n)*(~-1),int(A2/n)*~])

5

fork A4

=connect("oracle")

6

=B5.cursor@x("SELECT * FROM CUSTOMER WHERE C_CUSTKEY>? AND C_CUSTKEY<=?",A5(1),A5(2))

7

for B6,10000

8

=interval@s(A1,now())

注意每个线程都要独立连接数据库,不能共用同一个连接。 实测表明,在线程数不多的情况(一般 <10),能达到接近线性提速的效率,也就是有几个读数线程,读数速度就能接近快几倍,实测 6 线程能快出 5 倍。 这里要先计算出总的数据行数,然后再为每个线程拼出 WHERE 条件读取其中一部分数据,这意味着数据库多做了很多计算动作,但读取性能仍然有相当明显的提升,这进一步说明慢主要是慢在接口上,而不是数据库内部的读取和计算慢。

当然,用文件存储时,就更容易用并行提速了,SPL 实现这些并行计算都很简单: 文本并行取数:

A

B

1

>n=4

=now()

2

=file("/home/tpch/orders.tbl")

3

fork to(n)

=A2.cursor(;A3:n,"|")

4

for B3, 10000

5

=interval@s(B1,now())

组表并行取数:

A

B

1

>n=4

=now()

2

=file("/home/tpch/orders.ctx").open()

3

fork to(n)

=A2.cursor(;;A3:n)

4

for B3, 10000

5

=interval@s(B1,now())

实测结果和数据库类似,在线程数不很多的情况,也能达到线性提速。这里测试的 4 线程,文本读数速度提升了 3.6 倍,组表读数速度提升了 3.8 倍。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档