开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >熊猫HDFStore -从多个表中获取最后记录

问熊猫HDFStore -从多个表中获取最后记录
EN

Stack Overflow用户

提问于 2014-10-14 16:21:31

回答 1查看 1.1K关注 0票数 1

我有大量的数据帧通过Pandas导出到一系列HDFStore文件。我需要能够迅速拉进最近的记录，为每一个这些数据按需。

设置：

<class 'pandas.io.pytables.HDFStore'>
File path: /data/storage_X100.hdf
/X1                   frame_table  (typ->appendable,nrows->2652,ncols->1,indexers->[index])
/XX                   frame_table  (typ->appendable,nrows->2652,ncols->3,indexers->[index])
/Y1                   frame_table  (typ->appendable,nrows->2652,ncols->2,indexers->[index])
/YY                   frame_table  (typ->appendable,nrows->2652,ncols->3,indexers->[index])

我在每个HDF文件中存储大约100个数据帧，并且有大约5000个文件要运行。HDFStore中的每个数据帧都有一个DateTimeIndex索引。

对于单个文件，我目前正在循环遍历HDFStore.keys()，然后使用如下所示的tail(1)查询数据文件：

store = pandas.HDFStore(filename)
lastrecs = {}
for key in store.keys():
   last = store[key].tail(1)
   lastrecs[key] = last

是否有更好的方法来做到这一点，也许使用HDFStore.select_as_multiple？即使选择最后一条记录而不为尾部拉出整个数据帧，也可能会极大地加快速度。这是如何做到的呢？

语音识别特惠，低至14.9元！

提供业界非常具有性价比的语音识别服务，超高识别准确率，适用多场景

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-10-14 17:05:20

使用start和/或stop指定一系列行。您仍然需要对键进行迭代，但是这只会选择表的最后一行，所以应该非常快。

In [1]: df = DataFrame(np.random.randn(10,5))

In [2]: df.to_hdf('test.h5','df',mode='w',format='table')

In [3]: store = pd.HDFStore('test.h5')

In [4]: store
Out[4]: 
<class 'pandas.io.pytables.HDFStore'>
File path: test.h5
/df            frame_table  (typ->appendable,nrows->10,ncols->5,indexers->[index])

In [5]: nrows = store.get_storer('df').nrows

In [6]: nrows
Out[6]: 10

In [7]: store.select('df',start=nrows-1,stop=nrows)
Out[7]: 
          0        1         2         3         4
9  0.221869 -0.47866  1.456073  0.093266 -0.456778

In [8]: store.close()

下面是一个使用nrows (用于不同目的) here的问题

票数 4

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26372538

复制

相关文章

jstack排查cpu占用高的步骤

grep cpu pid 进程线程

通过jstack排查cpu占用高的问题 1.通过top命令找到cpu占用高的应用程序进程 2.通过top -H -p pid查看该应用中占用CPU高的线程。 3.通过printf "%x\n" pid 将线程高的线程号转为十六进制。 4.通过jstack过滤该十六进制的关键信息。jstack pid | grep 十六进制 -c 10

小忽悠

2023/02/14

1.6K0

谈谈Tomcat占用cpu高的问题

测试环境tomcat进程占用CPU一直持续99%，但是通过jstack查看log，也没有任何线程死锁的情况。此时通过$catalina_home/bin/shutdown.sh脚本无法正常停止tomcat。

编程随笔

2020/03/24

3.1K0

面试杂谈 - CPU占用高如何排查

程序里少不了运算，如果不是环境太恶劣，CPU基本是能支撑应用运行的。但如果发现CPU居高不下，就需要思考是否程序有问题。当服务器CPU居高不下，可以从下面几个方面入手定位问题。找到JAVA进程 pid 方法一: jps 那个jar就是我的一个java程序 [root@iZba13i1mo82ot7a3lhq5oZ ~]# jps 17616 Jps 26016 jar 9353 Bootstrap 26028 Bootstrap 16812 Bootstrap 方法二: ps -ef|grep 应用关键

acupt

2019/08/26

1.6K0

sqlserver 如何查看cpu占用高排查

数据库 cpu sys time 排序

右键数据库根目录--活动和监视器---可点击表头进行排序查看最近耗费大量资源的查询

田

2023/10/18

1.3K0

sqlserver 如何查看cpu占用高排查

CPU占用率高的九种可能

windows 网络安全

由于新版的 KV 、金山、瑞星都加入了对网页、插件、邮件的随机监控，无疑增大了系统负担。处理方式:基本上没有合理的处理方式，尽量使用最少的监控服务吧，或者，升级你的硬件配备。

时代疯

2021/07/19

2.1K0

在 Linux 中找出 CPU 占用高的进程

你可能也会遇到在 Linux 系统中找出 CPU 占用高的进程的情形。如果是这样，那么你需要列出系统中 CPU 占用高的进程列表来确定。我认为只有两种方法能实现：使用 top 命令和 ps 命令。出于一些理由，我更倾向于用 top 命令而不是 ps 命令。但是两个工具都能达到你要的目的，所以你可以根据需求决定使用哪个。这两个工具都被 Linux 系统管理员广泛使用。 1) 怎样使用 top 命令找出 Linux 中 CPU 占用高的进程在所有监控 Linux 系统性能的工具中，Linux 的 top 命令是最好的也是最知名的一个。top 命令提供了 Linux 系统运行中的进程的动态实时视图。它能显示系统的概览信息和 Linux 内核当前管理的进程列表。它显示了大量的系统信息，如 CPU 使用、内存使用、交换内存、运行的进程数、目前系统开机时间、系统负载、缓冲区大小、缓存大小、进程 PID 等等。默认情况下，top 命令的输出结果按 CPU 占用进行排序，每 5 秒中更新一次结果。如果你想要一个更清晰的视图来更深入的分析结果，以批处理模式运行 top 命令是最好的方法。同时，你需要理解 top 命令输出结果的含义，这样才能解决系统的性能问题。

用户2590762

2021/08/11

4K0

Windows 禁用 AppXSVC 解决 CPU 占用高问题

windows cpu 编辑器服务搜索

在一台虚拟机上安装了 Windows 10 lstc 2021 版，启动后发现 CPU 占用率一直居高不下，查看任务管理器发现是一个叫 wsapp 的系统服务服务占用 CPU 过高，搜索后发现对应的是 AppX Deployment Service 系统服务，是用来提供微软应用商店服务服务的。

宋天伦

2023/10/20

10.1K0

Windows 禁用 AppXSVC 解决 CPU 占用高问题

systemd --user进程CPU占用高问题分析

ssh 容器镜像服务容器编程算法

咋们可以先从systemd这个进程入手分析这个问题：根据文档《systemd (简体中文)》文档，我们可知如下图信息：作用：

yaohong

2022/05/10

3K0

systemd --user进程CPU占用高问题分析

解码Redis最易被忽视的CPU和内存占用高问题

云数据库 Redis®http 网络安全

作者介绍张鹏义，腾讯云数据库高级工程师，曾参与华为Taurus分布式数据研发及腾讯CynosDB for PG研发工作，现从事腾讯云Redis数据库研发工作。我们在使用Redis时，总会碰到一些redis-server端CPU及内存占用比较高的问题。下面以几个实际案例为例，来讨论一下在使用Redis时容易忽视的几种情形。一、短连接导致CPU高某用户反映QPS不高，从监控看CPU确实偏高。既然QPS不高，那么redis-server自身很可能在做某些清理工作或者用户在执行复杂度较高的命令，经排查无

腾讯云数据库 TencentDB

2019/10/11

6.8K1

解码Redis最易被忽视的CPU和内存占用高问题

解码Redis最易被忽视的CPU和内存占用高问题

云数据库 Redis®网络安全 http

张鹏义，腾讯云数据库高级工程师，曾参与华为Taurus分布式数据研发及腾讯CynosDB for pg研发工作，现从事腾讯云Redis数据库研发工作。

jeanron100

2019/12/17

2.1K0

解码Redis最易被忽视的CPU和内存占用高问题

CPU load 高占用率低问题的排查

ios 物联网 linux https 网络安全

# 1. 引言突然观察到服务器 load 过高，可是 CPU 占用率很低。这也算是一个常见问题了。那么，如何排查和解决这个问题呢？

用户3147702

2022/06/27

4.6K0

CPU load 高占用率低问题的排查

线上应用故障排查之一：高CPU占用

socket编程 jvm

（友情提示：本博文章欢迎转载，但请注明出处：hankchen，http://www.blogjava.net/hankchen）

爱撸猫的杰

2019/03/28

1.3K0

【问题】Win10 system占用cpu资源高

https java 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/126008.html原文链接：https://javaforall.cn

全栈程序员站长

2022/07/22

8200

【问题】Win10 system占用cpu资源高

Apache提示CPU占用率高怎么解决？

apache cpu 进程软件线程

　　所谓Apache出现CPU高占用率就是指Apache在一段时间内持续占用很高的CPU使用率，甚至达到CPU100％，这个时候造成网站无法访问。解决的方法就是仔细观察Apache的日志文件，查阅错误的信息。　　下面针对几种错误信息进行分析并给出解决的方法：　　1.Apache与WinSockv2相冲突　　Apache官方提供的手册中提到，在Windows系统下Apache2.x为了提高性能而使用了MicrosoftWinSockv2API，但是一些常见的防火墙软件会破坏他的正确性，从而使得Apache出现死循环操作造成CPU100％。　　可以依次采用下面的方法来解决上问题，如果进行了一步还有问题就继续下一步：　　1)在httpd.conf文件中使用Win32DisableAcceptEx禁止Apache使用MicrosoftWinSockv2API：　　Win32DisableAcceptEx#禁止使用AcceptEx() 　　2)使用SystemRepairEngineer(SREng)查看WinSocket供应者，如果出现非MS的陌生项则将其删除，并使用软件的“重置WinSocket”按钮进行重置。　　3)卸载与Apache相冲突的杀毒软件或防火墙软件。　　如果进行上面的三个步骤之后还有问题，那应该看看是不是还有下面的错误。　　2.是否加载了第三方模块(so文件) 　　Apache2.x要求所有的第三方模块都必须是线程安全的，但有很多第三方的模块可能存在内存泄露，因此时间一长就可以极大的消耗Apache资源。所以可以采用将所有的第三方模块逐个关闭的方法看看运行一段时间之后Apache对资源的占用是否有所改善。　　3.“Terminating1threadsthatfailedtoexit”错误　　上面错误中的数字1有可能是其他数字，造成这个错误的原因是Apache在关闭并发线程的时候出现线程溢出，从而造成内存泄露，表现出来的就是Apache所占用的系统资源持续增长。　　具体来说，Apache的子进程在结束当前请求之前会首先将所有的并发线程进行关闭，在关闭的时候会等待3分钟，如果3分钟之内没有将所有的线程关闭则会抛出上述的错误提示，然后强制关闭。这样就造成了内存溢出，时间一长会使得Apache所占用资源持续增长直到无法工作。这个时候可以适当将MaxRequestsPerChild的值降低，使得Apache子进程所并发的线程数量减少，从而降低该错误出现的几率。　　但是这种方式并不能彻底解决问题，幸好Apache2.0.x的最新版本(2.0.63)解决了之前版本的这个问题，如果3分钟之内有线程没有关闭的话会自动根据时间情况再增加等待结束的时间直到最终将所有的线程结束。日志文件中会出现类似下面的信息：　　Child1952:Waiting150moresecondsfor2workerthreadstofinish. 　　Child1952:Waiting120moresecondsfor1workerthreadstofinish. 　　Child1952:Allworkerthreadshaveexited. 　　4.“file.//server//mpm//winnt//child.c,line1078,assertion“(rv>=0)&&(rv 　　这个错误是Apache的一个bug(#11997)，可以通过Win32DisableAcceptEx禁止Apache使用WinSocketv2来避免此bug，具体设置见前述。　　5.PHP5.2.1以上版本的libmysql.dll与MySQL5不兼容　　PHP5.2.1以后的新版本(截止目前最新版本为5.2.5)中用于连接MySQL的libmysql.dll组件与MySQL5不兼容，在Apache中运行PHP的时候会造成Apache产生CPU100%的问题。　　解决的方法就是从http://www.php.net/releases/下载5.2.1版本，将压缩包中的libmysql.dll文件覆盖现在的文件，然后重启Apache就可以了。　　6.病毒或木马程序命名为Apache.exe 　　有的时候病毒或木马程序会将其名称命名为Apache.exe文件达到一种掩饰的目的，这个时候使用第三方进程分析器查看进程的路径然后将其删除或使用杀毒软件清除就可以了。　　7.程序编写不严谨造成死循环等错误　　如果上面的问题都不存在Apache依然产生CPU100%的问题的话，通常来说就应该是Web程序自身的问题了，例如死循环等等。这个时候需要在日志中设置HTTP请求的文件及执行的时间，然后查找出执行时间比较长的地址进行分析排查。

会长君

2023/04/25

2.4K0

线上应用故障排查之一：高CPU占用

socket编程 linux grep java

线上应用故障排查之一：高CPU占用一个应用占用CPU很高，除了确实是计算密集型应用之外，通常原因都是出现了死循环。以我们最近出现的一个实际故障为例，介绍怎么定位和解决这类问题。 image.png 根据top命令，发现PID为28555的Java进程占用CPU高达200%，出现故障。通过ps aux | grep PID命令，可以进一步确定是tomcat进程出现了问题。但是，怎么定位到具体线程或者代码呢？首先显示线程列表: ps -mp pid -o THREAD,tid,time image.

小小科

2018/05/04

1K0

线上应用故障排查之一：高CPU占用

Mysql数据库占用CPU高的解决方案

云数据库 SQL Server

服务器系统负载高，CPU长时间接近100%，通过top命令查看得知mysqld占用极高，问题锁定mysql。通常是由于SQL语句优化不到位造成的。

参谋带个长

2022/04/28

3.6K0

Hession反序列化导致CPU占用飙高

高爽

2017/12/28

2.2K0

Hession反序列化导致CPU占用飙高

系统wmiprvse.exe占用CPU非常高，求解决

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/155808.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/06

1.5K0

系统wmiprvse.exe占用CPU非常高，求解决

点击加载更多

相似问题

Prettyfaces占用高CPU

27

UIBezierPath绘图占用100%的CPU

21

UDP服务器占用高CPU

123

安卓: FFmpeg占用高内存/cpu导致崩溃

193

influxDB聚合查询慢、cpu占用率高

134

活动推荐

体验智能媒资降冷，云点播优惠不要错过！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例