ScikitLearn:返回Pandas DataFrame的FeatureUnion，但也已并行化

、、、、

我是第一次构建一个功能转换管道，但注意到使用FeatureUnion将管道组合在一起会返回一个numpy数组，但我更喜欢返回一个pandas数据帧，以便功能名称具有可见性。我已经创建了这个类，它为特性返回一个pandas数据帧，它工作得很好，但是这个自定义特性联合类比内置的sklearn特性联合类慢两倍。我如何将其并行化，以使运行时达到标准？任何帮助都将不胜感激！X1, X2,

浏览 6提问于2019-10-20得票数 0

8回答

熊猫群后并行化应用

、、、

我使用rosetta.parallel.pandas_easy在apply之后并行化groupby，例如：groupb

浏览 7提问于2014-10-03得票数 84

回答已采纳

1回答

我必须运行一个以几个参数作为输入并返回一些结果作为输出的脚本，所以首先我在本地机器中开发了它--工作正常--现在我的目标是在Databricks中运行它，以便并行化它。当我试图将它并行化时，问题就出现了。我从已经挂载的Datalake中获取数据(问题不在那里，因为在读取DataFrame之后我能够打印它)，将其转换为Spark，并将每一行传递给按材料分组的主要函数： import pandas as pd.iloc[

浏览 4提问于2021-04-16得票数 0

回答已采纳

1回答

如何分发函数的应用程序，该函数在一个分组数据框架上返回一个标量，它使用pandas和Azure在星火上运行？

、、、、

(我通常理解并行处理，并编写了低级并发代码。) # pandas dataframe to try groupby.

浏览 12提问于2022-08-04得票数 1

2回答

如何利用dask高效并行化时间序列预测？

、、、、

我正在尝试使用dask并行处理python中的时间序列预测。数据的格式是，每个时间序列都是一列，它们有一个月日期的共同索引。我有一个自定义预测函数，它返回带有拟合值和预测值的时间序列对象。我想要将这个函数应用于dataframe的所有列(所有时间序列)，并返回一个新的dataframe，并将所有这些序列上传到DB。我通过运行以下代码使代码工作： data = pandas_df.c

浏览 0提问于2018-03-21得票数 5

回答已采纳

1回答

如何并行执行对pandas数据帧的多个SQL查询

、、、

大家好，Python Pandas大师们。我正在寻找一种与Python并行运行SQL的方法，返回几个Pandas数据帧。其中两个查询的执行时间比IO (网络)时间要长得多，所以我认为并行化将使代码运行速度提高2倍左右。有没有一种简单的方法来并行执行查询？理想情况下，我希望能够读取项目的子目录中的所有*.sql文件，然后启动查询以并行运行，并以一种易于使用的格式<e

浏览 2提问于2013-07-29得票数 5

2回答

指定的数据属性定义(如列)位于哪个文件中？

、、

pandas是python中的一个巨大库。pd./pandas的熊猫图书馆。data = {'Name':['Tom', 'nick'], 'Age':[20, 21]} df.cloumns Index(['Age', 'Name'], dtype='ob

浏览 2提问于2020-04-05得票数 5

回答已采纳

1回答

如何在Python apache-beam中从拼图中获取模式

、、、、

目前，我在Python中有一个apache-beam管道，在该管道中，我正在读取拼花，将其转换为dataframe来进行一些熊猫的清理，然后将其转换回我想要编写文件的parquet。beam.io.ReadFromParquetBatched(known_args.input) \ | 'Process

浏览 8提问于2022-10-24得票数 2

回答已采纳

1回答

如何使用Pandas和SciKitLearn堆栈来提高Python脚本的性能？

、、

我使用Python和SciKitLearn堆栈创建了一个脚本来匹配巴西城市之间的气候数据。目前，我正在使用MongoDB和带有60M+条目的气候集合，以及Pandas对这些表进行查询和连接。如何改进我的代码？我很确定我是否能够处理嵌入式MongoDB数据(第三步)，而无需使用创建新的DataFrame ( pd.Series方法)。我已经尝试过json.normalize我的Mongo集合，然后把它转换成Dataframe，但是

浏览 3提问于2017-10-14得票数 1

1回答

高效并行地将函数应用于分组的pandas DataFrame

、、、

我经常需要将函数应用到非常大的DataFrame (混合数据类型)的组中，并且希望利用多核的优势。我可以从组创建迭代器并使用多处理模块，但它的效率很低，因为必须对每个组和函数的结果进行筛选，以便在进程之间进行消息传递。有没有办法避免酸洗，甚至完全避免复制DataFrame？看起来多处理模块的共享内存功能仅限于numpy数组。还有没有别的选择？

浏览 34提问于2012-07-31得票数 89

2回答

熊猫:在现有的基础上创建新列，如果条件不匹配，返回现有列

、

我有一个包含有分类值的列的数据集。我需要标准化列，因为有些值被错误地编码了。例如，'1.0‘和'3.0’分别应为'01‘和'03’。但是，当值正确时，我只需要返回我正在清理的列的值。我想把已清理的数据包括在一个新的专栏中。我对Python和Pandas比较陌生。我通常在R中工作，我尝试过我在Stack上找到的各种技术，但是当我试图从原始列返回</em

浏览 3提问于2022-06-01得票数 0

1回答

应用不使用“进程”调度程序

、、、

我试图通过使用下面的代码在熊猫数据上应用dask来并行化群。import pandas as pddef dummy_function(df): This function doing": ["ABC", "BCD", "ABC", "EFG"]}) ddf = dd.from_pandas(given_d

浏览 3提问于2021-03-27得票数 1

12回答

让Pandas* DataFrame应用()使用所有核心？*

、

截至2017年8月，Pandas 不幸仍仅限于使用单个内核，这意味着多核计算机在运行df.apply(myfunc, axis=1)时将浪费大部分计算时间。如何使用所有的核心并行运行应用于一个数据文件？

浏览 11提问于2017-08-07得票数 171

回答已采纳

1回答

大熊猫的平行采样和分组

、、、

我有一个很大的df (>=100k行和40列)，我正在重复地采样和分组。下面的代码可以工作，但我想知道是否有一种方法可以通过并行化进程的任何部分来加速进程。df可以驻留在共享内存中，并且df中没有任何更改，只需要为每列返回1个或更多聚合。import pandas as pdfrom tqdm import tqdm data = pd.DataFrame(np.random.randint(0,100

浏览 1提问于2021-12-03得票数 1

1回答

将get_feature_names添加到ColumnTransformer管道中

、

我正在尝试创建一个sklearn.compose.ColumnTransformer管道，用于转换分类和连续输入数据：from sklearn.impute import SimpleImputer sparse_threshold=0.,) X = column_transformer.f

浏览 2提问于2018-11-19得票数 4

回答已采纳

1回答

将列表中的每个元素映射到熊猫数据中的不同列

、、、、

我正在尝试对与我的dataframe中的每个人相关联的人进行分类，因此我将通过一个外部API来运行dataframe中的每一行/记录，该API返回与个人关联的人员列表。这样做的目的是编写一系列函数，调用API，返回亲戚列表，并将列表中的每个名称附加到原始dataframe中的不同列中。代码最终将被并行化。数据文件： import pandas</

浏览 1提问于2016-09-28得票数 0

1回答

返回达斯克中的数据

、、

的目标：加快在大数据帧(190万行)上应用函数行的速度问题：--我需要一种将每个函数的输出组合成最终数据的方法。我尝试使用df.append，在这里我会将每个数据块附加到一个新的dataframe中并返回这个dataframe</e

浏览 0提问于2018-07-30得票数 0

回答已采纳

1回答

从DataFrames列表缓慢初始化Pandas系列

、、

如果我们从DataFrames列表中初始化一个熊猫系列对象，我发现它是非常慢的。例如，以下代码：import numpy as np l = [pd.DataFrameIt is even much, much slower than the original list `l` construction.最初，我认为Series初始化不

浏览 2提问于2021-12-30得票数 5

4回答

是否有一种简单的并行运行pandas.DataFrame.isin的方法？

、、、

我有一个建模和评分程序，它大量使用熊猫的DataFrame.isin功能，在facebook的列表中搜索数千个特定页面中每个用户的“类似”记录。这是程序中最耗时的部分，比建模或评分部分更重要，因为它只运行在一个核心上，而其余部分则同时运行几十个。虽然我知道我可以手动地将数据分割成块并并行运行操作，但是有什么简单的方法可以自动完成吗？换句话说，是否有任何一种包可以识别我正在运行一个容易委托的操作并自动分发它呢？也许这要求太多了，但过去我对Python中

浏览 0提问于2014-05-19得票数 27

18回答

如何将SQL查询结果转换为PANDAS数据结构？

、、、

在这个问题上的任何帮助都将非常感谢。我有附加的查询代码。我正在阅读关于Pandas的文档，但我在识别查询的返回类型时遇到了问题。谢谢！SOME_INT) AS cpc WHERE campai

浏览 94提问于2012-08-21得票数 144

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

熊猫群后并行化应用

无法在数据库中使用Pandas

如何分发函数的应用程序，该函数在一个分组数据框架上返回一个标量，它使用pandas和Azure在星火上运行？

如何利用dask高效并行化时间序列预测？

如何并行执行对pandas数据帧的多个SQL查询

指定的数据属性定义(如列)位于哪个文件中？

如何在Python apache-beam中从拼图中获取模式

如何使用Pandas和SciKitLearn堆栈来提高Python脚本的性能？

高效并行地将函数应用于分组的pandas DataFrame

熊猫:在现有的基础上创建新列，如果条件不匹配，返回现有列

应用不使用“进程”调度程序

让Pandas* DataFrame应用()使用所有核心？*

大熊猫的平行采样和分组

将get_feature_names添加到ColumnTransformer管道中

将列表中的每个元素映射到熊猫数据中的不同列

返回达斯克中的数据

从DataFrames列表缓慢初始化Pandas系列

是否有一种简单的并行运行pandas.DataFrame.isin的方法？

如何将SQL查询结果转换为PANDAS数据结构？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐