如何在不导致服务器宕机的情况下,用 PHP 读取大文件

协作翻译

原文:How to Read Big Files with PHP (Without Killing Your Server)

链接:https://www.sitepoint.com/performant-reading-big-files-php/

译者:Tocy, Tony, 南宫冰郁, Tot_ziens

作为PHP开发人员,我们并不经常需要担心内存管理。PHP 引擎在我们背后做了很好的清理工作,短期执行上下文的 Web 服务器模型意味着即使是最潦草的代码也不会造成持久的影响。

很少情况下我们可能需要走出这个舒适的地方 ——比如当我们试图在一个大型项目上运行 Composer 来创建我们可以创建的最小的 VPS 时,或者当我们需要在一个同样小的服务器上读取大文件时。

后面的问题就是我们将在本教程中深入探讨的。

在 GitHub(https://github.com/sitepoint-editors/sitepoint-performant-reading-of-big-files-in-php) 上可以找到本教程的源码。

衡量成功的标准

确保我们对代码有改进的唯一方法是测试一个不好的情况,然后将我们修复之后的测量与另一个进行比较。换句话说,除非我们知道“解决方案”对我们有多大的帮助(如果有的话),否则我们不知道它是否真的是一个解决方案。

这里有两个我们可以关系的衡量标准。首先是CPU使用率。我们要处理的进程有多快或多慢?第二是内存使用情况。脚本执行时需要多少内存?这两个通常是成反比的 - 这意味着我们可以以CPU使用率为代价来降低内存使用,反之亦然。

在一个异步执行模型(如多进程或多线程的PHP应用程序)中,CPU和内存的使用率是很重要的考量因素。在传统的PHP架构中,当任何一个值达到服务器的极限时,这些通常都会成为问题。

测量PHP内的CPU使用率是不切实际的。如果这是你要关注的领域,请考虑在Ubuntu或MacOS上使用类似top的工具。对于Windows,请考虑使用Linux子系统,以便在Ubuntu中使用top。

为了本教程的目的,我们将测量内存使用情况。我们将看看在“传统”的脚本中使用了多少内存。

我们将执行一些优化策略并对其进行度量。最后,我希望你能够做出一个有经验的选择。

我们查看内存使用多少的方法是:

我们将在脚本的最后使用这些函数,以便我们能够看到哪个脚本一次使用最大的内存。

我们的选择是什么?

这里有很多方法可以有效地读取文件。但是也有两种我们可能使用它们的情况。我们想要同时读取和处理所有数据,输出处理过的数据或根据我们所读取的内容执行其他操作。我们也可能想要转换一个数据流,而不需要真正访问的数据。

让我们设想一下,对于第一种情况,我们希望读取一个文件,并且每10,000行创建一个独立排队的处理作业。我们需要在内存中保留至少10000行,并将它们传递给排队的工作管理器(无论采取何种形式)。

对于第二种情况,我们假设我们想要压缩一个特别大的API响应的内容。我们不在乎它的内容是什么,但我们需要确保它是以压缩形式备份的。

在这两种情况下,如果我们需要读取大文件,首先,我们需要知道数据是什么。第二,我们并不在乎数据是什么。让我们来探索这些选择吧...

逐行读取文件

有许多操作文件的函数,我们把部分结合到一个简单的文件阅读器中(封装为一个方法):

我们读取一个文本文件为莎士比亚全集。文件大小为5.5MB,内存占用峰值为12.8MB。现在让我们用一个生成器来读取每一行:

文本文件大小不变,但内存使用峰值只是393KB。即使我们能把读取到的数据做一些事情也并不意味着什么。也许我们可以在看到两条空白时把文档分割成块,像这样:

猜到我们使用了多少内存吗?我们把文档分割为1216块,仍然只使用了459KB的内存,这是否让你惊讶?考虑到生成器的性质,我们使用的最多内存是使用在迭代中我们需要存储的最大文本块。在本例中,最大的块为101985字符。

我已经撰写了使用生成器提示性能和Nikita Popov的迭代器库,如果你感兴趣就去看看吧!

生成器还有其它用途,但是最明显的好处就是高性能读取大文件。如果我们需要处理这些数据,生成器可能是最好的方法。

管道间的文件

在我们不需要处理数据的情况下,我们可以把文件数据传递到另一个文件。通常被称为管道(大概是因为我们看不到除了两端的管子里面,当然,它也是不透明的),我们可以通过使用流方法实现。让我们先写一个脚本从一个文件传到另一个文件。这样我们可以测量内存的占用情况:

不出所料,这个脚本使用更多的内存来进行文本文件复制。这是因为它读取(和保留)文件内容在内存中,直到它被写到新文件中。对于小文件这种方法也许没问题。当为更大的文件时,就捉襟见肘了…

让我们尝试用流(管道)来传送一个文件到另一个:

这段代码稍微有点陌生。我们打开了两文件的句柄,第一个是只读模式,第二个是只写模式,然后我们从第一个复制到第二个中。最后我们关闭了它,也许使你惊讶,内存只占用了393KB。

这似乎很熟悉。像代码生成器在存储它读到的每一行代码?那是因为第二个参数fgets规定了每行读多少个字节(默认值是-1或者直到下一行为止)。

第三个参数stream_copy_to_stream和第二个参数是同一类参数(默认值相同),stream_copy_to_stream一次从一个数据流里读一行,同时写到另一个数据流里。它跳过生成器只有一个值的部分(因为我们不需要这个值)。

这篇文章对于我们来说可能是没用的,所以让我们想一些我们可能会用到的例子。假设我们想从我们的CDN中输出一张图片,作为一种重定向的路由应用程序。我们可以参照下边的代码来实现它:

设想一下,一个路由应用程序让我们看到这段代码。但是,我们想从CDN获取一个文件,而不是从本地的文件系统获取。我们可以用一些其他的东西来更好的替换file_get_contents(就像Guzzle),即使在引擎内部它们几乎是一样的。

图片的内存大概有581K。现在,让我们来试试这个

内存使用明显变少(大概400K),但是结果是一样的。如果我们不关注内存信息,我们依旧可以用标准模式输出。实际上,PHP提供了一个简单的方式来完成:

其它流

还有其它一些流,我们可以通过管道来写入和读取(或只读取/只写入):

php://stdin (只读)

php://stderr (只写, 如php://stdout)

php://input (只读) 这使我们能够访问原始请求体

php://output (只写) 让我们写入输出缓冲区

php://memory 和 php://temp (读-写) 是我们可以临时存储数据的地方。 不同之处在于一旦它变得足够大 php://temp 会将数据存储在文件系统中,而 php://memory 将一直持存储在内存中直到资源耗尽。

过滤器

还有一个我们可以在stream上使用的技巧,称为过滤器。它们是一种中间的步骤,提供对stream数据的一些控制,但不把他们暴露给我们。想象一下,我们会使用Zip扩展名来压缩我们的shakespeare.txt文件。

这是一小段整洁的代码,但它测量内存占用在10.75MB左右。使用过滤器的话,我们可以减少内存:

此处,我们可以看到名为php://filter/zlib.deflate的过滤器,它读取并压缩资源的内容。我们可以在之后将压缩数据导出到另一个文件中。这仅使用了896KB.

我知道这是不一样的格式,或者制作zip存档是有好处的。你不得不怀疑:如果你可以选择不同的格式并节省约12倍的内存,为什么不选呢?

为了解压此数据,我们可以通过执行另一个zlib filter将压缩后的数据还原:

Streams have been extensively covered in Stream在“理解PHP中的流”和“U高效使用PHP中的流”中已经被全面介绍了。如果你喜欢一个完全不同的视角,可以阅读一下。

定制流

fopen和file_get_contents有它们自己的一套默认选项,但是这些都是完全可定制的。为了定义它们,我们需要创建一个新的流上下文:

在这个例子中,我们正在尝试向API发出POST请求。 API终端是安全的,但我们仍然需要使用http上下文属性(用于http和https)。我们设置一些消息头参数,并打开一个文件句柄到API。由于上下文处理写操作,我们可以将句柄打开为只读。

查看文档了解更多:https://php.net/function.stream-context-create

制定自定义协议和过滤器

在我们结束之前,让我们谈谈制定自定义协议。 如果你查看文档,你可以找到一个示例类来实现:

我们不打算实现其中的一个,因为我认为它应该有自己的教程。这里有很多工作需要完成。但是一旦这个工作完成,我们可以很容易地注册我们的流包装:

同样,也可以创建自定义流过滤器。该文档有一个示例过滤器类:

这可以很容易地注册:

突出显示名称需要匹配新的筛选器类的filtername属性。也可以在php://filter/highligh-names/resource=story.txt字符串中使用自定义过滤器。定义过滤器比定义协议要容易得多。因为协议需要处理目录操作,而过滤器只需处理每个数据块。

如果你有这个想法,我强烈建议你尝试创建自定义协议和过滤器。如果你可以将过滤器应用于stream_copy_to_streamoperations,那么即使在使用大容量文件时,你的应用程序也可以在没有内存的情况下使用。想象一下,编写一个调整大小的图像过滤器或加密的应用程序过滤器。

总结

虽然这不是我们经常遇到的问题,但在处理大文件时很容易搞砸。在异步应用程序中,当我们不注意小心使用内存的话,很容易导致整个服务器宕机。

本教程希望向你介绍一些新的想法(或者让你重新认识他们),以便你可以更多地考虑如何高效地读取和写入大型文件。当我们开始熟悉流程和生成器,并停止使用像file_get_contents这样的函数时,我们的应用程序中就会减少错误的类别,这看起来是很好。

本文来自企鹅号 - 开源中国媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java技术栈

细数Intellij Idea的10个蛋疼问题!

Intellij Idea以下简称IJ。 昨天细数了IJ上的10大666的姿势,IJ确实很智能,在很多方便可以完爆Eclipes,可在某些方面真的被Eclips...

3095
来自专栏Golang语言社区

一个简单的游戏服务器框架_游戏开发

最近一段时间不是很忙,就写了一个自己的游戏服务器框架雏形,很多地方还不够完善,但是基本上也算是能够跑起来了。我先从上层结构说起,一直到实现细节吧,想起什么就写...

1.3K6
来自专栏吕力的专栏

一种理解同步/异步,阻塞/非阻塞,Linux IO 模型,select /poll /epoll 的方法

强迫症不能忍受这种极其绕的概念而不给个说法,这些概念困扰我许久,下面给出这一阶段我个人的理解。

1.1K1
来自专栏企鹅号快讯

做网站-推荐3种CSS,JS合并的方式

在Web项目的开发中,js,css文件会随着项目的开发变得越来越多,越来越大,这就给给性能方面带来一些问题,如,页面引入的的js,css越多的话,那么对就增加了...

63811
来自专栏黄希彤的专栏

玩转云文件存储

千呼万唤始出来的 CFS 解决了集群服务的很多困扰多年的问题,实乃居家旅行,负载均衡、弹性伸缩之必备良药。

1.7K4
来自专栏cnblogs

基于.net core实现项目自动编译、并生成nuget包

1664
来自专栏智能计算时代

Envoy架构概览(6):异常检测

异常值检测和弹出是动态确定上游群集中的某些主机是否正在执行不同于其他主机的过程,并将其从正常负载平衡集中移除。 性能可能沿着不同的轴线,例如连续的故障,时间成功...

3836
来自专栏MixLab科技+设计实验室

用Flask写后端接口

此篇为全栈技能系列的第13篇。 往期: 技能之用iMovie制作预告片 手机App介绍视频:用QuickTime Player录制,keynote剪辑 利用Gi...

5206
来自专栏极客猴

Python 多进程与多线程

如果你把上篇多线程和多进程的文章搞定了,那么要恭喜你了 。你编写爬虫的能力上了一个崭新的台阶。不过,我们还不能沾沾自喜,因为任重而道远。那么接下来就关注下本文的...

1251
来自专栏微信终端开发团队的专栏

安装包立减1M--微信Android资源混淆打包工具

上一篇文章我们讲述了Android减少安装包体积的一些tips,本文主要对前文提到的资源混淆做一个简单的分析。微信中的资源混淆工具主要为了混淆资源ID长度(例如...

3688

扫码关注云+社区

领取腾讯云代金券