Pandas数据框到内存中的镶木地板缓冲区

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (13)

用例如下:

  1. 从外部数据库读取数据并将其加载到pandas数据帧中
  2. 将该数据帧转换为镶木地板格式缓冲区
  3. 将该缓冲区上传到s3

我一直在尝试在内存中执行第二步(无需将文件存储到磁盘以获得镶木地板格式),但到目前为止我看到的所有库,它们总是写入磁盘。

所以我有以下问题:

  • 如果转换是在内存中完成的,那么它不会更高效,因为您不必处理I / O磁盘开销吗?
  • 当您增加转换文件并将其存储到磁盘的并发进程时,我们是否有关于磁盘的问题,例如某些点的空间不足或达到磁盘的吞吐量限制?
提问于
用户回答回答于

如果转换是在内存中完成的,那么它不会更高效,因为您不必处理I / O磁盘开销吗?

是的,它会的。为此你可以使用一个BytesIO对象(或StringIO),它可以用来代替文件描述符。如果你正在使用pyarrow,你就有了NativeFile

当您增加转换文件并将其存储到磁盘的并发进程时,我们是否有关于磁盘的问题,例如某些点的空间不足或达到磁盘的吞吐量限制?

同样正确,但这是对文件系统(包括数据库)的任何读/写的限制。通过确保在完成文件后删除文件,可以节省磁盘空间。此外,在达到磁盘吞吐量限制之前,您更有可能达到带宽限制,除非您正在处理大量磁盘上的数据或SQL语句。

...但到目前为止我见过的所有库,它们总是写入磁盘。

除非函数明确需要“文件名”,否则可以用fp上面提到的缓冲区对象替换文件指针('s)。

热门问答

服务器操作台不是Windows咋换?

小爱同学

腾讯云 · 技术支持 (已认证)

推荐
您好,您参考重装Windows系统;仅支持中国大陆地域(不含香港)。例如,Linux 重装为 Windows,Windows 重装为 Linux 。 登陆控制台 图片.png 选择【公共镜像】中Windows ,配置Windows密码,点击【开始重装】即可更换Windows 图片...... 展开详请

Golang云函数怎么做CORS?

Alfred

腾讯云 · 高级产品经理 (已认证)

推荐
设置响应 header 主要也就是相应数据结构, https://github.com/tencentyun/scf-go-lib/blob/master/cloudevents/scf/apigw.go APIGatewayProxyResponse 结构中的 header 字...... 展开详请

IM如何在离线登录后获取到多个会话的未读消息数量?

风子猪未来的前端开发工程师!成长的路上加油!勿忘初心方得始终
推荐
您好,建议按照以下步骤操作: 1. 离线上线后调用 webim.syncMsgs(updateUnreadCount); // 同步未读消息。 2. 在updateUnreadCount 回调函数中调用 webim.MsgStore.sessMap();获取会话列表,返回值是...... 展开详请

腾讯云短信服务有没有提供接口?

滑稽园扛把子

Swoole Inc · PHP工程师 (已认证)

As a PHP Developer
推荐
有接口的,个人认证用户不支持使用 API 申请短信模板,企业用户可以。详情文档:https://cloud.tencent.com/document/product/382/5817 URL 示例 POST https://yun.tim.qq.com/v5/tlssmssvr...... 展开详请

为什么无服务没有cpu资源?

Tina

腾讯云 · 产品经理 (已认证)

Go Serverless!
推荐
您好 函数实例可以使用的 CPU 资源与配置内存对应,例如 1024 MB 内存配置的函数,获得的 CPU 将是分配 512 MB 内存时的两倍。您可以通过提高配置内存,获得更多的 CPU。 相关文档:https://cloud.tencent.com/document/pr...... 展开详请

云函数怎么区分是公众号或小程序?

您好,是希望区分从微信公众号或者是小程序过来的请求吗?可以在请求里加字段标识一下做区分

所属标签

扫码关注云+社区

领取腾讯云代金券