在大型数据集上滚动包含熊猫的最大值非常慢

，这是因为熊猫（Pandas）是一个基于Python的数据分析工具，它在处理大型数据集时可能会遇到性能瓶颈。

为了解决这个问题，可以考虑以下几个方面：

数据集分块处理：将大型数据集分成多个较小的块，然后逐块进行处理。这样可以减少内存的使用，提高计算效率。可以使用熊猫的read_csv函数的chunksize参数来实现数据集的分块读取。
使用适当的数据结构：熊猫提供了多种数据结构，如Series和DataFrame。在处理大型数据集时，可以根据具体需求选择合适的数据结构，以提高性能。例如，使用Series的nlargest函数可以快速找到最大的几个值。
使用并行计算：熊猫支持使用并行计算库（如Dask）来加速数据处理。通过将计算任务分发到多个处理器或计算节点上并行执行，可以显著提高处理速度。
数据预处理和优化：在进行数据分析之前，可以对数据进行预处理和优化，以提高后续计算的效率。例如，可以使用熊猫的astype函数将数据类型转换为更高效的类型，或者使用fillna函数填充缺失值。
使用合适的硬件和云服务：对于处理大型数据集的任务，选择适合的硬件和云服务也非常重要。可以考虑使用高性能的服务器、分布式存储系统和云计算平台，以提供更好的计算和存储能力。

总结起来，处理大型数据集时，可以通过数据集分块处理、使用适当的数据结构、并行计算、数据预处理和优化，以及选择合适的硬件和云服务等方式来提高熊猫在大型数据集上滚动包含最大值的性能。

腾讯云相关产品和产品介绍链接地址：

腾讯云大数据分析平台：https://cloud.tencent.com/product/emr
腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos

在大型数据集上滚动包含熊猫的最大值非常慢

、

我有一个熊猫数据帧df，它的DatatimeIndex跨越大约2年，2列和超过3000万行的float64数据。我预计它会更快一些，因为计算最大值可能需要跟踪滚动窗口中每一步中所有值的顺序。然而，很容易看到如何通过添加至多一个log因子来实现这一点，所以我希望有一个较小的差异。如果这是最好的选择，那么在整个数据集上使用df.rolling(&#x

浏览 8提问于2018-02-03得票数 4

回答已采纳

2回答

熊猫在大型数据集上的合并速度非常慢。

、

我有一个获得4000 K HL7文件的管道。我得把它转换成csv。每个文件将有多个HL7段，每个段(OBX)将有一个列(COL1，COl2..COL100)，它的值和时间。我正在循环遍历每一列，创建熊猫数据框架，并附加列it.if列属于时间，它已经存在于数据帧中。如果数据帧中没有时间，则应追加列，在数据帧中创建新行。最后，我标记了所有文件的所有数据框架。这需要很长时间。df = df1

浏览 3提问于2020-04-24得票数 2

3回答

当结果集大小太大而无法计算时，如何使用jqgrid？

、、

我在尝试使用jqgrid。不幸的是，我无法计算结果集大小，因为我使用的是一个非常的大型数据库，而且计算我提供的结果集的大小非常慢。我可以相当快地获得数据，但是不可能为我的查询获得结果集的计数。也许不是通过使用寻呼机，而是使用某种滚动条？有什么标准的技术被外面

浏览 1提问于2010-11-04得票数 0

回答已采纳

1回答

具有大数据集的DC和交叉滤波器

、、、

我一直在研究dc和十字过滤器js，目前我有一个拥有55万行和大小为60 it的csv的大型数据集，并且面临着许多问题，比如浏览器崩溃等等。因此，我试图了解dc和crossfilter如何处理大型数据集。他们的主站点上的示例运行非常顺利，在看到时间线->内存(在控制台中)之后，它的最大值为34 mb，并且

浏览 0提问于2014-06-26得票数 5

回答已采纳

2回答

如何在不使用数据库切片的情况下在视图中显示大列表？

、、、、

我有一个服务，它通过多次迭代和来自多个表的计算生成一个大型地图。我的问题是我不能使用分页偏移量来切片数据，因为数据来自多个表，并且对数据进行了不同的修改。为了在屏幕上显示它，我必须将包含10-20,000条记录的地图发送到视图，这对于这个大型数据集来说是有问题的。此时，我有页面上的分页，但这非常</em

浏览 0提问于2011-08-19得票数 0

回答已采纳

1回答

Dask在保存到镶木地板时使用所有内存

、

我在使用dask时遇到了问题。与熊猫相比，它非常慢，特别是在读取高达40G的大型数据集时。经过一些额外的处理后，数据集增长到大约计算列，其中主要是计算(这是相当慢的，特别是当我像这样调用float64：output = df[["date", "permno"]].compute(scheduler='thread

浏览 3提问于2021-09-21得票数 0

2回答

在设计和优化将运行在大型数据库服务器上的存储过程时，应该考虑什么？

、、

在工作中有人说是否意味着“大型数据库服务器”意味着大量的数据，如果是的话，这如何影响存储过程的设计？存储过程的设计和优化是否与常规SQL的设计和优化相同？是“设计和优化”冗余的吗？

浏览 2提问于2010-01-08得票数 0

回答已采纳

2回答

在没有for循环的数据帧中对笛卡儿数据进行采样？

、、、、

我在熊猫的数据中有一个3D数据，我想要“过采样”/平滑，将每个x，y点上的值替换为所有点的平均值，这些值都在该点的5个单位内。我可以使用这样的for循环来完成这个任务(从包含三列X、Y、Z的dataframe开始)：X_OS = []fordict = { 'X

浏览 9提问于2022-09-08得票数 2

回答已采纳

1回答

在大型数据集上WebView非常慢后的困惑

、、、

许多天后，我几乎完成了我的第一个应用程序，但WebView最终毁了它。搜索功能太慢了。我想要显示的HTML/CSS页面，在搜索之后，有时会变得非常大，就像用循环和连接DB的7100多条记录制作的页面一样。现在，我正在考虑使用其他方式，比如TextView和ScrollView等等。我读到，这需要我<e

浏览 3提问于2017-09-09得票数 0

4回答

在大型Linq数据集上，Enumerable.Any()非常慢

、、、、

这是一对多的关系。在某个东西中有一个SubSomethings列表。如果我取出&& (ws.SubSomethings.Any())，就会得到一个非常快的返回列表。，以使陷入困境的代码更快？当我达到8000项以上的记录时，至少需要4分钟。下面是我在SubSomething表中为SomethingId的外键创建的索引，该索引对应于Something.Id CREATE NONCLUSTERED INDEX [IX_Sub

浏览 9提问于2017-05-05得票数 1

回答已采纳

1回答

MongoDB -匿名60万条记录

、

我正在尝试匿名一个包含大约60万条记录的大型数据集(删除电子邮件等敏感信息)这样它就可以用于一些性能测试。我在Mongo上使用Scala (Casbah)。实际的脚本非常简单明了。当我运行脚本时，整个过程开始得相当快--每2-3秒解析1000条记录，但它的速度非常慢，开始爬行的速度非常慢。我知道这很模糊，但没有太多细节，但你知

浏览 0提问于2011-10-10得票数 2

回答已采纳

2回答

在熊猫DataFrame中高效地查找匹配行(基于内容)

、、

我正在编写一些测试，我正在使用Pandas DataFrames来存放一个大型数据集~(60万x 10)。我从源数据(使用Stata)中提取了10个随机行，现在我想编写一个测试，看看这些行是否在我的测试套件中的DataFrame中。pd.DataFrame(np.random.rand(5,3), columns=['one', 'two', 'three']) random_sample = raw_data

浏览 2提问于2014-07-30得票数 1

回答已采纳

2回答

将大型SAS数据集转换为hdf5

、、、

我有多个大型(>10 in ) SAS数据集，我想转换为熊猫使用，最好是在HDF5。有许多不同的数据类型(日期、数字、文本)，一些数字字段对于缺失值也有不同的错误代码(例如值可以是.、.E、.C等)。我希望保留列名和标签元数据。有没有人找到一个有效的方法来做这件事？我试着使用MySQL作为两者之间的桥梁，但是在传输时出现了一些超出范围的错误，而且速度<em

浏览 5提问于2014-02-10得票数 10

回答已采纳

2回答

优化熊猫出库().apply().stack()

、、

我有一个大熊猫DataFrame，它有一个多个索引‘日期’，‘Int2 1’，'Int2‘和一个列是浮点数。some_matrix_math(matrix): return matrix 我正在对“日期”、“Int1”进行规范化，然后希望将数据框架返回到“Date”、“Int2 1”、“Int2 2”的拥有和索引中。上面的代码可以工作，但在大型数据集上非常慢</e

浏览 5提问于2017-09-29得票数 1

回答已采纳

1回答

使用大型(70,000+项目)数据集进行高效的jQuery实时搜索

、、、

我正在为我的WordPress站点上的一个页面创建一个新表单，并且在该表单的一个输入上，我想使用jQuery添加一个实时搜索功能，该功能会根据用户到目前为止输入的内容列出可能的选项。我正在过滤的数据集是存储在我的主题中的一个非常大的JSON对象，它包含超过70,000个键/值对。因为

浏览 14提问于2020-02-24得票数 2

回答已采纳

3回答

在星火上运行Pandas有什么用？

、

这周我刚开始使用PySpark，我已经安装了access 2的实例已经安装了Pandas。但是在星火上拥有熊猫有什么用呢？在PySpark上运行脚本不就是为了克服像Pandas这样的软件包的局限性吗？如果Pandas在星火上运行，它的性能会提高吗？它与星火的RDD兼容吗？

浏览 0提问于2017-01-13得票数 4

2回答

Winforms或WPF线图库，它不限制我可以放大到数据子集的范围吗？

、、、、

我生成的图表包含数以百万计的数据点，时间戳为毫秒级，虽然我不想看到图表上的所有数据点(数据聚合或抽样实际上更可取)，但我希望能够尽可能放大，基本上可以缩小到单个数据点级别，而不管绑定数据收集中的数据量有多大它处理大型数据集非常糟糕，因为( a)即使使用"SwiftS

浏览 5提问于2014-06-04得票数 1

1回答

当控制台终止时，dataframe是否仍然存在？

、、、、

loss" : [[0]]*64, }, index = list(range(64))) 然后，在循环中运行循环仍在进行中，我预计它不会在我的最后期限之前完成。因此，我希望终止控制台并继续使用到目前为止存储在scores中的信息。但是，我只希望在结束循环后仍然可以访问dataframe时才这样做。如果在循环仍在运行时终止循环，是否可以使用带有中间结果的

浏览 2提问于2020-07-07得票数 1

回答已采纳

2回答

使用MySQL搜索大数据集？

、、

现在我是一名非常先进的MySQL开发人员，并且对小规模的集非常了解，但是我现在正在为我最近加入的一家初创公司建立一个大型的基础设施，他们的服务器每天使用它们庞大的服务器功能和以前的体系结构推送大约100我需要知道搜索数据库大小为394.4 of的大数据集(目前驻留在8 490万)行的最佳方法。它是使用Amazo

浏览 2提问于2010-08-02得票数 1

1回答

使用矢量化熊猫函数向行添加多个项，而不是迭代？

、

我有一个相当大的生物信息学数据集，我正在处理使用熊猫。df0 a=1|b=4 None None2 a=1|b=1 None None 我想从“元数据”列中提取元数据，并将其放在a列和b列中(是的，生物信息学文件格式非常糟糕)。但对于大型数据集来说非常慢。我的</em

浏览 1提问于2014-04-16得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在大型数据集上滚动包含熊猫的最大值非常慢

相关·内容

在大型数据集上滚动包含熊猫的最大值非常慢

熊猫在大型数据集上的合并速度非常慢。

当结果集大小太大而无法计算时，如何使用jqgrid？

具有大数据集的DC和交叉滤波器

如何在不使用数据库切片的情况下在视图中显示大列表？

Dask在保存到镶木地板时使用所有内存

在设计和优化将运行在大型数据库服务器上的存储过程时，应该考虑什么？

在没有for循环的数据帧中对笛卡儿数据进行采样？

在大型数据集上WebView非常慢后的困惑

在大型Linq数据集上，Enumerable.Any()非常慢

MongoDB -匿名60万条记录

在熊猫DataFrame中高效地查找匹配行(基于内容)

将大型SAS数据集转换为hdf5

优化熊猫出库().apply().stack()

使用大型(70,000+项目)数据集进行高效的jQuery实时搜索

在星火上运行Pandas有什么用？

Winforms或WPF线图库，它不限制我可以放大到数据子集的范围吗？

当控制台终止时，dataframe是否仍然存在？

使用MySQL搜索大数据集？

使用矢量化熊猫函数向行添加多个项，而不是迭代？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐