如何让Pandas数据帧在多核上运行？_尝试-除了在pandas数据帧上_在DateTime上合并Pandas数据帧 - 腾讯云开发者社区

python-3.x、pandas、multicore

我在pandas dataframe中处理了大约500万行数据&大约45 minutes.There是多列，数据转换涉及到将一些列复制到新列，根据给定的逻辑更改某些列中的值，以及许多这样的转换。由于pandas一次只在一个核心上运行，我的其他节点仍然处于空闲状态。如何让pandas利用所有可用节点并减少总的转换时间？

浏览 52提问于2021-01-12得票数 0

1回答

如何在多个dataframe lambda函数上实现dask映射分区？

python、pandas、dataframe、multiprocessing、dask

我已经使用pandas实现了两个数据帧之间的模糊字符串匹配算法。我的问题是如何将其转换为使用多核的dask操作？我的程序在纯python上运行大约3-4天，我想并行操作以优化时间成本。phase','new']然后，我必须根据每个字符串关联的数值将数据<

浏览 3提问于2018-05-19得票数 0

1回答

合并两个大型数据帧

python、pandas、dataframe、merge

我有两个大数据帧:一个包含3M行，另一个包含2M行第一个数据帧： sacc_id$ id$ creation_date0 001A000000hAUn8IAG-26 我需要合并它们： case = pd.merge

浏览 16提问于2019-01-31得票数 0

1回答

多个pandas数据帧作为多处理的参数

pandas、dataframe、multiprocessing

我目前正在开发一个执行多个数据检查的程序。我做的代码在单核上工作正常，但由于体积的原因，我需要实现多核处理。问题是我找不到如何将多个pandas数据帧作为参数传递给函数模块。请注意，主数据集purchase_orders已经在进程之间拆分，因此每个进程将接收1/4的

浏览 0提问于2018-08-28得票数 3

1回答

在Dask中使用尚未实现的Pandas函数

python、pandas、dask、dask-distributed、dask-delayed

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行</em

浏览 10提问于2019-06-02得票数 1

回答已采纳

1回答

如何用Shapely和Dask将坐标列转换为点列？

pandas、dask、geopandas、shapely

我的数据是一个巨大的数据帧，看起来像这样(这是数据帧的头部) import pandas ~\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas~\AppData\Local\Continuum\an

浏览 18提问于2019-06-27得票数 0

1回答

我有一个pandas Dataframe，它有数百万行，我必须逐行操作。因为我有一个多核CPU，所以我想使用多处理来加速这个过程。我想这样做的方式是将数据帧拆分成大小相等的数据帧，并在单独的进程中处理每个数据帧。到目前为止一切顺利..。问题是，我的代码是以OOP风格编写的，并且我使用多进程池得到了Pickle错误。我在X中进一步使用类属性(只读访问)。我真的不想切换回函数式编程风格...因此，在OOP环境中进行多处理

浏览 4提问于2016-11-25得票数 0

6回答

如何让我的代码在多核上运行？

c#、multithreading、multicore

我已经在C#中构建了一个应用程序，希望对其进行多核优化。我有一些线程，我应该做更多吗？更新以获取更多详细信息已再次更新这段代码是作为服务运行的我不想有完整的代码...我在这里的目标是获得你的经验和如何开始

浏览 44提问于2008-09-23得票数 18

回答已采纳

3回答

如何将Dask.DataFrame转换为pd.DataFrame？

python、pandas、dask

如何将生成的dask.DataFrame转换为pandas.DataFrame (假设我已经完成了繁重的任务，只想将sklearn应用到聚合结果中)？

浏览 27提问于2016-08-18得票数 43

回答已采纳

12回答

让Pandas* DataFrame应用()使用所有核心？*

pandas、dask

截至2017年8月，Pandas 不幸仍仅限于使用单个内核，这意味着多核计算机在运行df.apply(myfunc, axis=1)时将浪费大部分计算时间。如何使用所有的核心并行运行应用于一个数据文件？

浏览 11提问于2017-08-07得票数 171

回答已采纳

2回答

将spark的MLLib例程与pandas数据帧一起使用

python、apache-spark、pyspark、apache-spark-mllib

我有一个非常大的数据集(大约20 it )存储在磁盘上，名为Pandas/PyTables，我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间，所以我想把它租给一个我可以访问的spark集群，而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧，但我对如何在MLLib例程中使用它感到有点困惑。我不太熟悉MLLib，它似

浏览 1提问于2015-05-06得票数 0

1回答

WinPcap中的离线过滤是线程安全的吗？

multithreading、thread-safety、pcap、libpcap、winpcap

由于同时需要对每个传入帧进行唯一标记一次，因此我不能使用明显的解决方案，即让多个pcap_t设备对每个设备使用唯一的过滤器。相反，我使用单个pcap_t设备收集数据，标记每个帧，然后利用pcap_offline_filter应用程序接口在单独的线程中过滤每个选定的“会话”(即，X个会话将在X个不同的线程中过滤)，以充分利用此应用程序将在其上运行的多核系统

浏览 3提问于2012-11-25得票数 1

回答已采纳

1回答

如何成功地将pandas.Dataframe.apply与pandas.NA和lambdas结合使用

python、python-3.x、pandas、dataframe、lambda

给定具有pandas.NA值的数据帧，如何在其上运行决策lambda？如何让这个lambda在pandas.NA上工作，或者强制pandas.NA到numpy.NaN？(如果将pandas.NA替换为numpy.NaN，代码将运行)if pandas.NA: p

浏览 3提问于2022-12-01得票数 0

1回答

两个独立测试和视图中的Dataframe组，类似于spps

python、pandas、dataframe

在第二步中，我喜欢添加A、B等统计表示。 

浏览 2提问于2018-10-16得票数 0

1回答

如何运行多个agg函数并在pandas数据框中以行的形式返回它们？

pandas

给定一个如下所示的数据帧： id x y 2 5 5 2 3 7 2 1 9 如何在一列上运行多个聚合函数(例如min和max)，但将它们作为数据框的行返回？预期输出应为： minmax 6 在R的dplyr中，我可以做这样的事情，但我不知道如何让它在pandas中工作。

浏览 16提问于2020-08-24得票数 0

回答已采纳

2回答

如何在pandas* dataframe中使用列表作为值？*

python、csv、numpy、pandas、dataframe

我有一个数据帧，它要求列的子集具有具有多个值的条目。下面是一个包含“runtime”列的dataframe，其中包含程序在各种条件下的运行时：df = pandas.DataFrame(df) 这就

浏览 0提问于2014-11-08得票数 8

回答已采纳

3回答

取消保留pandas数据帧的字典引发AttributeError：“Dataframe”对象没有属性“_data”

python-3.x、pandas、dataframe、pickle

我有一个执行分析并将结果附加为对象属性的类，这些结果是pandas数据帧： y xopen(filepath, 'wb') as handle:当我尝试装入这个酸洗过的文件时，完全没有问题，数据帧装入得很好上对一堆这样的文件运行分

浏览 0提问于2020-08-24得票数 15

回答已采纳

1回答

Dask -是否有可能通过自定义函数使用每个worker中的所有线程？

python、dask、python-multithreading

在我的例子中，我在S3中有几个文件和一个自定义函数，该函数读取每个文件并使用所有线程进行处理。为了简化示例，我只生成了一个数据帧df，并且假设我的函数是使用多进程的tsfresh.extract_features。生成数据 import pandas as pdfrom tsfresh.examples.robot_execution_failuresrange(10)] out = compute(to_pro

浏览 26提问于2020-08-27得票数 1

1回答

在中央处理器上运行的OpenCL程序

multithreading、opencl、cpu

我想比较一下单核CPU和多核CPU的性能。我写了一个程序，让它在单核CPU上迭代1000次，以查看运行时间。在多核的情况下，我使用OpenCL来启动一个内核，其中的代码与第一种情况的迭代中的代码相同。考虑到多核可以运行8个并发线程，理论上多核实例的运行时间应该在T(单核)/8以上，但结果是T(多核)几乎是T(单核)的1/20。我想知道为什么会发生这种情况？Op

浏览 0提问于2015-07-09得票数 0

1回答

在pandas中合并和重新排列两个数据帧

python、pandas

我有两个数据帧，每个数据帧看起来像20100101 country1 120100101 country2 420100103 country2 620100101 1 4 20100102

浏览 1提问于2014-01-29得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云