基于另一个文件对数据帧值执行操作

文章/答案/技术大牛

发布

1回答

、、

我有一个这样的csv文件，里面有一堆值- Time,metric_A,metric_B,metric_C1,3,4,5new_metric_A=metric_A/metric_B new_metric_B=metric_A-metric_B

浏览 11提问于2019-07-02得票数 1

回答已采纳

2回答

Apache Spark当调用repartition($" key ")时，当每个键的所有记录的大小大于单个分区的大小时会发生什么？

、、、

假设我有一个10 c1的数据帧，其中一个列的"c1“对于每条记录都有相同的值。每个单独的分区最大为128 MB(默认值)。

浏览 34提问于2021-09-23得票数 2

回答已采纳

3回答

使用R将多个数据帧写入.csv文件

、、

我已经使用lapply将一个函数应用于许多数据帧：然后根据它们的主题编号(例如，100)来标记列表中的每个结果数据帧：我想要做的是将每个新数据框保存为基于其主题编号的单个.csv文件。通常情况下(对于单个数据帧)，我只需要这样写(其中x是<em

浏览 1提问于2014-11-03得票数 9

回答已采纳

1回答

pandas数据帧连接类操作

、、、

我有一个包含以下内容的pd.Dataframe：另一个数据帧包含：我想要对这两个数据执行“连接”，这样我得到的数据帧将包含以下内容：但我也希望它是基于双键(student_id，course_id)连接的，这在我的数据帧中是唯一的。我该如何

浏览 0提问于2015-11-18得票数 2

1回答

基于列值高效地从宽Spark数据帧中删除列

、、

如果我有一个只包含IP地址的宽数据帧(200m cols)，并且我想删除包含空值或格式不佳的IP地址的列，那么在Spark中执行此操作的最有效方法是什么？我的理解是Spark并行地执行基于行的处理，而不是基于列的处理。因此，如果我尝试在列上应用转换，将会有大量的混洗。首先转置数据帧，然后应用筛选器删除行，然后重新转置是利用spark并行性的好方法吗？

浏览 11提问于2019-10-31得票数 1

1回答

基于第一次出现在另一个数据框中的值，将数据帧行中的剩余值替换为NA

、、、

我有两个数据帧，其中一个具有表示时间序列的数值行子集，另一个是与初始数据帧中的时间点相关的1和0的数据帧。基于布尔数据帧，我想在布尔数据帧中第一次出现0的时间点将初始数据帧中的值替换为NA。2 3 4.5 0 1 11 1 1

浏览 10提问于2020-09-21得票数 1

回答已采纳

2回答

Python -在不同变量的循环中运行相同的代码块

、、

我有下面这组代码，在这些代码中，我在从名为df的源数据帧中提取一些数据后，执行一些基于操作的操作。Customer_data.append(Customer) Customer = pd.DataFrame(Customer_data.append, columns = ['Customer']) 我正在尝试对变量集重复上面的代码，其中我将用另一个变量替换变量Customer。

浏览 10提问于2021-01-18得票数 0

1回答

将一个数据帧拆分为多个数据帧，并对这些数据帧并行执行过程

、、

我有一个数据框dfA。其中包含超过一百万条记录。我想根据'GROUP_ID‘将数据帧拆分成多个数据帧，然后对这些数据帧执行一些操作。此循环将基于唯一的组id创建数据帧。

浏览 1提问于2018-01-31得票数 0

1回答

、、、

它的值存在于Pandas数据帧中。我必须首先在数据帧中找到它的值，然后对它执行一些关节炎操作。并再次将其存储在另一个Pandas数据帧中。但它需要太多的时间才能完成。因此，我将值存储在元组中，性能有所提高，但并不像预期的那样。有什么方法可以优化这一点吗？下面是我完成的示例代码。

浏览 22提问于2020-04-07得票数 0

3回答

如何根据时间是否在某个范围内来创建由1或0填充的数组/数据帧？

、、、

基本上，我有一个数据帧，它有两列，这两列都是小时： +-----+----+ +-----+----+ +--我想创建另一个dataframe，它的列标题为'1‘到' 24’(基于24小时周期的小时)，如果小时时间在该范围内(包括该范围)，则上面的数据帧的每一行显示1，如果在该范围之外，则显示0。因此，例如，上述数据帧的第二行如下所示： 1

浏览 42提问于2018-05-31得票数 1

3回答

Pandas groupby独刊

、

我有一个数据帧'region_group‘。如下所示，此数据帧在“城镇/城市”列中没有“ARTHOG”值。但是，当我在此列上执行groupby优先时，此值将弹出。我正在试图理解为什么会发生这种情况。注意: region_group数据帧基于另一个数据帧，该数据帧在“城镇/城市”列中的值</e

浏览 11提问于2018-02-09得票数 1

回答已采纳

2回答

如何根据同一数据框列中的唯一值列表对该数据框子集？

、、、

我有一个简单的数据帧，看起来像这样。我想要能够选择所有的行，其中LOC是纽约，子集这个数据帧，并标记为一个变量，我可以用来附加纽约的行，我已经创建的电子邮件使用win32的联系人。我希望随着LOC值的变化，这是动态的。 Contact LOC ...

浏览 10提问于2019-04-23得票数 0

1回答

如何在转换后过滤spark数据帧中的坏行或损坏行？

、

| spark| 1|+-------+-------+-----+ 在将Score转换为int并将hits转换为float之后，我得到了以下数据帧我只想在现有的数据帧上执行这些操作。请帮助我，如果有任何内置的方式，以获得糟糕的记录后，演员。请同时考虑这是示例数据帧。该解决方案应适用于任何数量的列和任何场景。我尝试将空记录从两个数据帧中分离出来，并对

浏览 9提问于2019-05-15得票数 0

1回答

使用相同的函数在数据框中创建多个新列

、、

假设我有一个数据帧“测试”，它原来有三个字段: Col1，Col2，Col3。在单个列上执行此函数并输出单个列非常容易： Test <- Test %>% mutat

浏览 0提问于2019-10-30得票数 0

点击加载更多