Pandas - Transform DataFrame_在Python中的Pandas.DataFrame.transform中传递多个lambda函数_Pandas to transform列中的Case语句 - 腾讯云开发者社区

pandas、dataframe

假设我有一个DataFrame： ID Y-M Question Score1 1 2019-2 B 0.5 2 2

浏览 13提问于2020-09-24得票数 1

1回答

传递什么Pandas数据类型来在一个组中转换或应用

python、pandas

'><class 'pandas.core.frame.DataFrame'> <class 'pandas.core

浏览 5提问于2013-12-19得票数 6

回答已采纳

1回答

有没有像progress_apply一样显示进度条的progress_transform？

python、pandas、tqdm

我正在尝试使用df“系列”.transform，而不是df“系列”.apply。对于.apply，我们在initiate之后使用.progress_apply from tqdm import tqdmdf["series"].progress_apply(function) 但是，我找不到.progress_transform的版本。我知道我们可以使用其他的tqdm方法，比如循环它，但我只想知道我们是否有.progress_transform？谢谢

浏览 18提问于2020-11-02得票数 2

回答已采纳

1回答

使用坐标从PDF中提取表格

python、pandas、pdf、tabula

我使用tabula-py通过以下方式提取表： import tabula df = tabula.read_pdf("test.pdf", pages

浏览 11提问于2019-09-24得票数 1

回答已采纳

1回答

预处理数据时imputer.fit出错

python-3.x

)' is an invalid key #Importing Librariesimport matplotlib.pyplot as pltimputer = imputer.fit(X[: , 1:3])imputer = imputer.fit(X[: , 1:

浏览 72提问于2019-04-09得票数 0

2回答

将2个不同列数的Pandas数据帧相乘

python、pandas、dataframe

我有2个具有不同列数的pandas数据帧。df1包含40行x 23320列，而df2包含40行x 1列。必须用df2对df1的所有列进行多重排序。

浏览 32提问于2021-07-04得票数 0

1回答

在使用SimpleImputer .I之后，Dataframe成为一个numpy数组，希望它返回一个数据

python、pandas、data-science

在下面的笔记本中，在使用SimpleImputer计算丢失的值后，dataframe被转换为numpy数组，我如何确保它的类型保持为dataframe本身？import pandas as pd imp = SimpleImputer(strategy='median')df2

浏览 6提问于2020-02-13得票数 1

1回答

如何对Dask DataFrame应用LabelEncoder对分类值进行编码

pandas、data-science、dask、dask-distributed、dask-ml

dask_ml.preprocessing import LabelEncoder, Categorizer pipe = make_pipeline(这给了我一个新的错误： TypeError: fit() takes 2 posit

浏览 66提问于2019-07-24得票数 1

回答已采纳

2回答

sphinx警告:自动摘要:找不到该类方法的存根文件。检查您的autosummary_generate设置

python、python-sphinx、numpydoc、sphinx-napoleon

Verifies that the input X is a pandas dataframe, and that the variables to ---------- y : pandas Series, defaul

浏览 64提问于2020-12-08得票数 7

回答已采纳

1回答

可能将数据分解为拓扑的各个部分

python、pandas、apache-spark

我有一千万的记录数据。我的要求是，我需要对熊猫的这些数据做一些操作，而且我对所有1000万条记录都没有记忆。所以我希望能够对每个块进行分块并使用toPandas#do chunking to take X records at a timep_df = chunked_df.toPandas()如何通过记录计数将我的数据分割成相等的x-部分或部分，比如一次一百万。这两种解决方案都是

浏览 1提问于2018-10-26得票数 10

回答已采纳

1回答

我怎样才能干净地标准化数据，然后“去标准化”它呢？

python、pandas、numpy、tensorflow、normalize

我的大部分数据都是用pandas存储的。 df = (df - df.min(

浏览 4提问于2017-04-13得票数 2

回答已采纳

1回答

是否可以一次对多个选定列进行编码？

python、pandas、scikit-learn

LabelEncoder# dataImputed[catgoricalValues] = dataImputed[catgoricalValues].apply(le.fit_transform) #didn't work dataImputed[catgoricalValues] = le.fit_transform(dataImputed[catgoricalValues].astype(

浏览 15提问于2020-07-21得票数 0

回答已采纳

1回答

没有GroupBy的分组映射？

python、pandas、apache-spark、pyspark、pyspark-sql

我的理想解决方案允许矢量化的Pandas应用，而不需要任意分组，但如果我能够保存任意分组，至少可以消除洗牌。下面是我的代码。@pandas_udf(b_schema, PandasUDFType.GROUPED_MAP) b = a_partition.drop("pid", axis=1) return b .read.parquet(a_path)

浏览 2提问于2019-11-06得票数 11

回答已采纳

1回答

如何用scipy.stats使用UDF (或任何其他方式)用正态分布在Pyspark中创建数组？

pyspark、scipy、user-defined-functions、scipy.stats

我目前正致力于将Python脚本迁移到PySpark，我有这个运行良好的Python脚本：import pandas as pd box = list(eval('st.norm')(*[mean,std]).rvs(n)) df = pd.DataFrame

浏览 23提问于2022-07-21得票数 0

1回答

Partition上的聚合- pandas Dataframe

python、pandas、group-by、dataframe、partition

我正在寻找基于特定分区聚合值的最佳方法，它相当于在Pandas中，

浏览 2提问于2016-03-10得票数 23

2回答

如何从管道中的sklearn向量机返回数据？

python、pandas、scikit-learn、tf-idf

我有一个Sklearn管道，其中一个步骤是：我知道tfidf_vectorizer.get_feature_names()可以帮助知道列名。但是，我如何将这个+将稀疏矩阵转换为dataframe的过程包含在管道中呢？

浏览 0提问于2018-10-11得票数 4

回答已采纳

1回答

为什么dask_ml.preprocessing.OrdinalEncoder.transform会产生不按序号编码的结果？

dask、dask-dataframe、dask-ml

size=N),})原始OrdinalEncoder.transform返回一个numpy.ndarray (带有数值)： [1., 0.], [1., 0.

浏览 7提问于2021-05-07得票数 0

回答已采纳

1回答

用sklearn恢复StandardScaler().fit_transform()的特性名称

python-3.x、machine-learning、scikit-learn、xgboost

代码：import matplotlib.pyplot as pltimport pandasdf.Depth_to_Groundwater_P24X = scaler.fit_transformy_val, y_pred))) 如果我评论一下这两句话： sca

浏览 18提问于2022-03-17得票数 2

回答已采纳

1回答

使用Pyspark.pandas为窗口操作定义分区

python、pandas、dataframe、apache-spark、pyspark

我正在努力学习如何使用pyspark.pandas，我遇到了一个我不知道如何解决的问题。我有一个大约700 K行和7列的df。以下是我的数据示例：import pandas as pd 'Value': [6000

浏览 15提问于2022-08-10得票数 0

1回答

如何基于另一个数据规范熊猫数据

python、pandas、dataframe、neural-network、normalization

有两只熊猫。为了训练神经网络，我使用MinMaxScaler对第一次数据进行规范化。对于测试数据集，我也需要这样做，但是如何根据第一个数据集的最小和最大值来缩放数据集呢？数据集有很多列第一次数据访问：| --- |---- || 2 | 10 || 4 | 0 || | colA || 1 | 2 |预期规模： |

浏览 9提问于2022-08-06得票数 2

回答已采纳

点击加载更多