在每次传递时间列进行转换时遍历Dataframe

scala、dataframe、apache-spark、apache-spark-sql

我有一个有100列和列名的数据帧，比如col1、col2、col3……我想根据条件匹配对列的值应用特定的转换。我可以将列名存储在字符串数组中。并在withColumn中传递数组的每个元素的值，并且基于When条件我可以垂直转换列的值。但问题是，由于数据帧是不可变的，所以每个更新的版本都需要存储在一个新的变量中，并且新的数据帧需要传入withColumn以便为下一次迭代进行转换。有没有办法创建数据帧的数组，以便新的数据

浏览 23提问于2020-07-10得票数 0

回答已采纳

1回答

将json转换为在熊猫中划行df

python、json、pandas、dictionary

我如何转换这个字典，使每个键都是一个列，而时间戳是每一行的索引--在每次调用url时，dict values对应行条目？stats') as url:block_df = pd.DataFrame(block_data)block_df = pd.DataFrame(block_data)

浏览 5提问于2017-08-30得票数 4

回答已采纳

1回答

优化函数，用给定的前一行替换一行，这是Pandas中的一个条件

python、pandas、dataframe

我有一个相对较大的数据帧(大约24000行15列)，其中包含由神经网络(DeepLabCut)输出的老鼠运动的2D坐标数据。作为此输出数据的一部分，有一个p值得分，该得分衡量神经网络在应用该标签时的确定性程度。我试图通过每次遇到低p值时将前一行复制到其位置来过滤低质量预测，这假设rat在该帧中保持不变。Pval1 2 4 1.03 4 2 1.0 其思想是用来自行索引1的值替换行索引2，使得当计算这些坐标之间的帧

浏览 25提问于2021-11-03得票数 1

回答已采纳

1回答

检查RDD PySpark上的操作

python-2.7、apache-spark、pyspark、apache-spark-sql、rdd

我在获得有问题的文件名时使用。dataFrame.The列中将添加到dataFrame中上面显示了具有值的列，但是当我将dataFrame转换为RDD或在RDD上循环时，file_name列没有任何值。例如,print(rdd_data.take(1)) 这将显示带有空值的file_name列</em

浏览 3提问于2016-07-26得票数 1

回答已采纳

2回答

Dataframe用唯一的时代时间替换每一行空值。

scala、apache-spark、dataframe

我在dataframes中有3行，在2行中，列id获得了空值。我需要循环遍历该特定列id上的每一行，并替换为应是唯一的并且应该发生在dataframe本身中的划时代时间。怎么做呢？例如：1 anull c 我想要这个将null转换为划时代时间的dataframe。

浏览 1提问于2018-10-09得票数 0

1回答

将时间戳[us，tz=Etc/UTC]转换为timestamp[ns]将导致超时时间戳

pandas、apache-spark、pyspark、apache-spark-sql、databricks

这是我为此目的使用的代码：dataframe = df.toPandas()dataframe_json = dataframe.to_json(orient='records', force_ascii=False) 然而，第二行抛出了错误。从时间戳、tz=Etc/UTC到时间戳的转换将导致超出范围的时间

浏览 2提问于2021-12-29得票数 6

1回答

R:从dataframe列表的每个元素中删除零方差列。

r、list、dataframe

当我拆分dataframe时，引入了0方差列(colSums=0)。列表中的Dataframes可能共享0个方差列，或者它们可能有完全不同的列和0方差。(x) {length(table(x, useNA = useNA))}) which(out==1) }dataframe_list_zero_var_rm[[1]][,3:n

浏览 4提问于2015-07-28得票数 1

2回答

将pandas数据帧转换为条目列表

python、list、pandas、dataframe、tuples

numpy.array(matrix.toarray())games = {1: 0, 4: 1, 6: 2}我现在需要的是从该数据帧中获取一个列表，其中矩阵中的每个单元格都表示为以下格式的元组

浏览 3提问于2018-02-03得票数 1

回答已采纳

11回答

更改pandas中的列类型

python、pandas、dataframe、types、casting

我希望将一个表示为列表列表的表转换为Pandas DataFrame。举一个非常简单的例子：df = pd.DataFrame(a) 将列转换为适当类型的最佳方法是什么在本例中，将<

浏览 5提问于2013-04-09得票数 1155

回答已采纳

1回答

如何从大型python数据帧中的复杂字符串中提取数字

python、regex、string、pandas、dataframe

我有一个接近1M行的python dataframe。有一个字符串列，其中包含一些数字，例如 String_Col String 24FT 20 String 3 我需要从该列提取24,24,20,20并将其另存为新列。我可以遍历每个单元格并进行字符串转换，但对于大型数据集来说，这会消耗大量时间。任何想法都是值得感谢的。

浏览 13提问于2020-01-16得票数 1

回答已采纳

2回答

PySpark数据帧的最佳实践-删除多个列？

python、dataframe、apache-spark、pyspark

假设有人想要从数据帧中删除一列。可以在不创建新数据帧的情况下做到这一点吗？看起来创建一个新的数据帧更安全，更正确，对吗？如果重用数据帧是一种糟糕的做法，假设有人想要删除几个与模式匹配的列： if col.startswith("aux_"):在这种情况下，每次创建一个新的数据帧似乎不切实际。

浏览 21提问于2019-11-22得票数 0

1回答

熊猫DataFrames的SQLAlchemy模型存储

python、pandas、flask、sqlalchemy

我正在构建一个烧瓶应用程序，允许用户上传CSV文件(包含不同的列)，预览上传的文件，生成摘要统计数据，执行复杂的转换/聚合(有时通过芹菜作业)，然后导出修改过的数据。我考虑过三种方法：将DataFrame压缩到PickleType中并直接存储在DB中。这似乎是最简单的解决方案，但意味着我将把大型二进制对象插入数据库。对DataFrame进行酸洗，将其写入文件系统，并将路径存储为模型中的字符串。这使数据库保持较小，但在备份数据库和允许用户执行删除先前上传的文件等操作

浏览 1提问于2014-05-06得票数 13

1回答

在不唯一的Pandas DataFrame列上高效运行操作

python、python-2.7、pandas

我有一个类似于下面的DataFrame：raw_data = {'Identifier':['10','10','10','11',11,'12','13']}import pandas as pdprint df 正如您所看到的，'Identifi

浏览 1提问于2017-06-19得票数 0

1回答

应用于星火DataFrame多列转换的优化方法

scala、apache-spark、apache-spark-2.2

在我的火花作业中，我必须对两个用例在多列上进行转换： columnsDefs.foldLeft，我使用它来执行计算n个多列来创建n个新列(1输入值表示1输出值，n次)

浏览 6提问于2021-11-01得票数 0

3回答

如何在python中转换不寻常的24小时日期格式？

python、python-2.7、pandas

我有格式的dataframe列全时类型。现在，dataframe的这个列的数据类型是String。我想把它转换成日期时间，以便能够执行一些数值运算，比如对它们进行减法。我曾尝试在使用pd.to_datetime时指定格式，但由于时间是24小时格式，因此会抛出一个错误。做这件事最好的方法是什么？

浏览 5提问于2016-10-21得票数 0

回答已采纳

1回答

将Pandas序列转换为分类编码

python、pandas

我有一个数据帧，我正在尝试对数据帧中的所有分类值进行编码。下面是我写的一次编码所有分类列的代码， data[col] = data[col].astype('category').cat.codesAttributeError: '<

浏览 30提问于2021-05-13得票数 1

回答已采纳

1回答

我如何在tibble上循环并根据字符串检测更改其列值？

r、function、loops、if-statement、stringr

我有一个函数，在这个函数中，我尝试使用预先确定的列遍历给定的tibble。{ }}} “text”列是文本，我希望根据每一行的“text”列是否包含某些“secenekler”值来更改其他列中的值。例如，如果对于第三行“text”列不包含'secenekler向量‘的第二个值，则给定Ti球中特定行的<em

浏览 8提问于2022-04-26得票数 0

3回答

是否将numpy数组转换为dataframe列？

python、pandas、numpy、dataframe

如何将numpy数组转换为dataframe列。假设我已经创建了一个空的dataframe，df，并且我循环通过代码来创建5个numpy数组。在for循环的每次迭代中，我希望将在该迭代中创建的numpy数组转换为dataframe中的一列。为了清楚起见，我不想在每次循环迭代时都创建一个新的数据帧，我只想在现有的列中添加一列。df = pd.datafram

浏览 6提问于2017-06-08得票数 9

1回答

在pyspark中按小时分组？

pyspark、apache-spark-sql

我有数据帧，其中包含字符串格式的时间列。dataframe= time value 00:23:00 5 01:23:34 34 0hour count 0

浏览 26提问于2019-10-09得票数 0

回答已采纳

1回答

使用列表理解时覆盖的数据

python、pandas、dataframe

每个新的dataframe应该是原始的'constituents_list‘数据格式，有两个新列。这两列向现有列添加定义的年数并返回值。year_list = [3, 5, 7, 10]我在new_dfs在我的结果中，所有四种数据都有相同的数据，其“男高音”为“10Y”，而“成熟度”则比“有效”一栏大10年。我怀疑每次<

浏览 3提问于2020-02-20得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将json转换为在熊猫中划行df

优化函数，用给定的前一行替换一行，这是Pandas中的一个条件

检查RDD PySpark上的操作

Dataframe用唯一的时代时间替换每一行空值。

将时间戳[us，tz=Etc/UTC]转换为timestamp[ns]将导致超时时间戳

R:从dataframe列表的每个元素中删除零方差列。

将pandas数据帧转换为条目列表

更改pandas中的列类型

如何从大型python数据帧中的复杂字符串中提取数字

PySpark数据帧的最佳实践-删除多个列？

熊猫DataFrames的SQLAlchemy模型存储

在不唯一的Pandas DataFrame列上高效运行操作

应用于星火DataFrame多列转换的优化方法

如何在python中转换不寻常的24小时日期格式？

将Pandas序列转换为分类编码

我如何在tibble上循环并根据字符串检测更改其列值？

是否将numpy数组转换为dataframe列？

在pyspark中按小时分组？

使用列表理解时覆盖的数据

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐