在Pandas DataFrames上应用自定义类/函数

、

我有一个带有getData方法的DataImporter类，我想将其应用于熊猫数据帧。问题:类/方法只能处理单个元素。df["c"] = Class(df["id"]).getData(df["a"], df["b"]) 我发现有类似pandas.Series.apply的东西，但我不认为它适用于

浏览 5提问于2017-06-02得票数 1

回答已采纳

1回答

Pandas和Pandas被证明可以一起工作吗？

、、、、

我面临许多问题，集成/添加Pandas现有代码的Pandas代码。1)如果我将Pandas dataframes转换为，那么多个操作就无法很好地转换，因为Pandas dataframes似乎没有Pandas dataframes那么丰富。2)如果我选择使用Pandas和pandas在同一代码中处理不同的数据集，当通过map调用的函数包含任何熊猫数据时，Pyspark转换

浏览 2提问于2017-12-26得票数 6

1回答

在优化超参数时，使用来自XGBoost库的交叉验证是否有好处？

、、、、

如果我使用交叉验证的sklearn实现，我可以使用pandas.DataFrame的S和熟悉的sklearn函数/类。xgboost.cv()是否以某种方式优化，而sklearn交叉验证函数却没有？我知道在训练模特方面有一些表面上的差别。在DMatrix之上使用pandas.DataFrames有什么好处吗？看起来，在较早版本的XGBoost中，您不能使用pandas.DataFrames</em

浏览 0提问于2022-12-28得票数 0

1回答

尝试应用extractall函数时，pandas返回"Cannot concat indices not do number of levels“错误

、、

在尝试从邮件正文中提取日期时，我遇到了错误：dfgroup\s(PM|AM)))'))File "C:\Users\tioxr\AppData\Local\Continuum\Anaconda3\lib\site-packages\pandas

浏览 95提问于2018-01-30得票数 4

1回答

将每个json项转换为pandas* dataframe列中的json对象*

、、

我有一个包含以下4列的pandas数据框架 ID Name Date MetaData 1 abc 5/4/2021 "{'IsAdult': 1,'IsMale

浏览 7提问于2021-07-09得票数 0

1回答

是否可以将选定的列设置为julia dataframe中的索引？

、

pandas中的dataframes在一个或多个数字和/或字符串列中进行索引。特别是，在groupby操作之后，输出是一个数据帧，其中新的索引由组给出。类似地，julia dataframe总是有一个名为Row的列，我认为它等同于pandas中的索引。但是，在groupby操作之后，julia dataframes不使用组作为新的索引。下面是一个有效的示例： using RDatasets;using S

浏览 23提问于2020-11-05得票数 9

回答已采纳

1回答

为什么我可以在Pandas* DataFrames上使用numpy函数？*

、、

我偶然发现NumPy函数可以直接应用于Pandas DataFrames。例如：很管用。这不是我所期望的，因为NumPy对熊猫一无所知。幕后发生了什么？

浏览 1提问于2020-05-13得票数 0

2回答

迭代Dask数据帧

、、、、

我正在尝试从成百上千个大型CSV文件的单个列中创建一个Keras Tokenizer。Dask似乎是一个很好的工具。我目前的方法最终会导致内存问题： df = dd.read_csv('data/*.csv', usecol=['MyCol']) # This greatly reduces memory consumption, but eventually materializesmy_id

浏览 18提问于2020-10-30得票数 1

5回答

如何用自己的方法和功能扩展熊猫的Dataframe类

、、、、

第一个问题：import pandas class ExtendedDataframe(pandas.DataF

浏览 12提问于2017-12-21得票数 3

2回答

使用numpy/scikit函数保持pandas结构

、、、

我正在使用pandas提供的优秀的read_csv()函数，它提供了：Out[32]: Int64Index: 12083 entries, 0 to 12082 Columns: 569 entries, REGIONC to

浏览 0提问于2013-02-11得票数 13

回答已采纳

2回答

将np.dot应用于两个DataFrames的每一行

、

假设我有两个相同形状的Pandas DataFrames，我想制作一个系列，这是两个DataFrames的逐行(考虑使用pandas.DataFrame.apply)点积。是否有一种紧凑的、矢量化的方法可以做到这一点，而不必连接到一个DataFrame并定义一些自定义函数？我认为这很困难，因为我不能隐式地索引df2中对应于来自df1的相同索引的行。

浏览 4提问于2015-09-29得票数 3

回答已采纳

1回答

包含元数据的Pandas* DataFrames子类*

、、、

当我创建元数据属性时，我禁止使用UserWarning，这提醒我不要在DataFrame本身中创建列，在我的例子中，这是很好的。当我想重新加载它时，我使用my_fancy_df = pandas.read_pickle(file_path)。我可以在子类中拦截.to_pickle调用，并安排将元数据单独写入同一个文件对象。但是，我没有看到一种改变数据重新加载方式的等效方法。read_pickle函数是通用的，并且位于Pandas命名空间中，它不属于DataFrame类。我可能会在我的<

浏览 1提问于2019-07-28得票数 2

回答已采纳

1回答

uproot4不再支持tree.pandas.df()函数了吗？

、

我曾经使用tree.pandas.df()函数(2年前)从根文件中检索熊猫数据。但是，在最近运行代码时，我得到了以下错误。有人能告诉我问题出在哪里吗？f = uproot.open(inputFile)tree = f[treeName] myDf = tree.pandas.df('branchName

浏览 8提问于2022-09-22得票数 1

2回答

将Pandas数据集转换为数组，以便在Scikit-Learn中建模

、、

我们可以在Pandas DataFrames上运行scikit learn模型吗?或者我们需要将DataFrames转换为NumPy数组吗？

浏览 0提问于2014-03-21得票数 11

1回答

大熊猫isna()和isnull()的差异

、、

更重要的是，在识别dataframe中缺少的值时，应该使用哪个值。如何将一个值检测为na或null的基本基础区别是什么？

浏览 0提问于2018-09-06得票数 190

回答已采纳

1回答

如何在循环中读取和修改csv文件，并在Pandas中保存为分隔的DataFrame？

、、、、

我尝试在Pandas中创建函数，其中：目前我有如下所示，但是它只返回一个DataFramemaking aggregations #3. saving each modified csv to separated DataFramesFInally我

浏览 2提问于2022-11-20得票数 0

回答已采纳

3回答

将Pandas* DataFrames中的Dask包转换为单个Dask DataFrame*

、、、

长版最小工作示例

浏览 10提问于2019-12-13得票数 3

回答已采纳

1回答

在Pandas* Dataframes上使用.apply时自定义函数的性能*

、、、

正如标题所暗示的那样，我想更好地了解在使用应用于dataframe的自定义函数时在速度方面的局限性。由于我不知道这种矢量化是如何发生的--从而使我的函数的特征分析成为一种耗时的尝试和重复的事情，有人可以用一些经验法则来指点什么样的东西：( 1)没有降低速度，2)大大减慢了整个过程。

浏览 3提问于2016-04-30得票数 1

回答已采纳

1回答

AttributeError：“numpy.ndarray”对象没有属性“滚动”，只有在过滤CSV数据之后才会出现。

、、、

应用dff = pd.Dataframe(dff)后，出现了新的问题。在顶部显示一个意外的零。背后的原因是什么？如何解决这个问题？

浏览 1提问于2020-11-12得票数 1

1回答

提高运行大文件的性能

、、、

我的机器上运行着包含8GB of memory的大型输入数据集(2-3 GB)。我使用的是安装了pandas 0.24.0的spyder版本。本质上，我将输入文件chunk成较小的片段，通过一些代码运行它，然后导出较小的输出。然后我删除分块的信息以释放内存。但在整个操作过程中，内存仍然会不断积累，最终会花费类似的时间。df2 = func1(df1) df_list.append(df2) # Merge all datafram

浏览 13提问于2020-05-18得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pandas和Pandas被证明可以一起工作吗？

在优化超参数时，使用来自XGBoost库的交叉验证是否有好处？

尝试应用extractall函数时，pandas返回"Cannot concat indices not do number of levels“错误

将每个json项转换为pandas* dataframe列中的json对象*

是否可以将选定的列设置为julia dataframe中的索引？

为什么我可以在Pandas* DataFrames上使用numpy函数？*

迭代Dask数据帧

如何用自己的方法和功能扩展熊猫的Dataframe类

使用numpy/scikit函数保持pandas结构

将np.dot应用于两个DataFrames的每一行

包含元数据的Pandas* DataFrames子类*

uproot4不再支持tree.pandas.df()函数了吗？

将Pandas数据集转换为数组，以便在Scikit-Learn中建模

大熊猫isna()和isnull()的差异

如何在循环中读取和修改csv文件，并在Pandas中保存为分隔的DataFrame？

将Pandas* DataFrames中的Dask包转换为单个Dask DataFrame*

在Pandas* Dataframes上使用.apply时自定义函数的性能*

AttributeError：“numpy.ndarray”对象没有属性“滚动”，只有在过滤CSV数据之后才会出现。

提高运行大文件的性能

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐