如何根据不同长度的数据帧中的条件填充数据帧中的列？_如何根据来自两个以上长度不同的其他数据帧的条件，填充数据帧中的空列？_pandas数据帧中的条件填充in () - 腾讯云开发者社区

c、mp4、h.264、fmp4

我使用C语言将H264框架(只有I/P帧)编码成fmp4文件。当我填充mdat框时，我不知道如何填充帧数据。 (I/P)帧数据是否被直接填充？前4个字节是否需要填充帧长度？我尝试使用FFMPG对fmp4文件进行编码，发现mdat框中的数据与原始的I/P帧数据完全不同。又被编码了吗？我能直接将I/P帧的数据填入mdat框吗？

浏览 0提问于2019-01-01得票数 1

回答已采纳

2回答

R迭代数据帧的效率

r、dataframe、tidyverse

我正在处理一个大型数据集，我们将其命名为data，并希望创建一个新列，基于某个列data$input，我们将其命名为data$results。结果是基于一些条件if/then逻辑，所以我最初的方法是这样的： for (rows in data) { data$results <- if(data$results == "1" | data$results== "2") { trueAnswer } else { falseAnswer } } 对于大数据帧，此过程可能需要几个小时才能运行。但是，如果我

浏览 1提问于2018-04-16得票数 1

1回答

如何在Python中使用SAS SWAT模块更改CASTable的数据类型

python-3.x、sas

我使用SWAT模块在Python中访问SAS数据。一个键列包含数据类型为"char“的类别。我有另一个数据帧，我导入为CASTable，如下所示： conn = swat.CAS(host, port, username, password) meta = conn.read_csv("file.csv") 元数据帧有一个类似的列，但它被导入为dtype："varchar“。当我尝试合并两个数据帧时，我得到一个错误，因为两个键列具有不同的数据类型(字符和变量字符)，但我无法弄清楚如何在CASTable中更改数据类型？我曾尝试通过添加dtype =

浏览 13提问于2021-02-16得票数 1

2回答

创建特定大小的pandas数据框

python、dataframe

在R中，我可以这样做： myvec <- seq(from = 5, to = 10)^2 mydf <- data.frame(matrix(data = myvec, ncol = 3,byrow = TRUE)) > mydf X1 X2 X3 1 25 36 49 2 64 81 100 请注意，我可以通过传入ncol参数来指定数据帧的形状。然后，我可以按行或按列(在本例中是按行)填充它。如果我用Python/Pandas复制这段代码，那么创建序列就足够简单了： myData = [x**2 for x in range(5,11) ] 然而，如何轻松地制

浏览 3提问于2017-08-03得票数 13

回答已采纳

1回答

如何按Pandas中列的计数对数据进行分组？

python、pandas、csv

我有一个CSV文件，有很多行和不同的列数。如何根据列的计数对数据进行分组，并在不同的帧中显示？ CSV文件具有以下数据： 1 OLEG US FRANCE BIG 1 OLEG FR 18 1 NATA 18 由于每一行的列数不同，所以必须按列数对行进行分组，并显示3帧才能设置标头： ID NAME STATE COUNTRY HOBBY FR1: 1 OLEG US FRANCE BIG ID NAME COUNTRY AGE FR2: 1 OLEG FR 18 FR3: ID NAME

浏览 2提问于2022-05-23得票数 0

回答已采纳

2回答

如果奇数行数，则从dataframe删除随机行

r、dataframe

当数据中有奇数行时，我希望从数据帧中随机删除一行。为了做到这一点，我尝试了以下方法： library(dplyr) df <- tibble(value 1:100) # Creating data frame df <- case_when( nrow(df) %% 2 == 0 ~ df, # If even # of rows, keep df as is nrow(df) %% 2 != 0 ~ df[-sample(x = nrow(df), size = 1),] # If odd number of rows, randomly s

浏览 14提问于2022-04-25得票数 2

回答已采纳

1回答

方法没有用0值更新指定筛选条件的列。

python、pandas、fillna

我想用0填充数据帧中列的缺失列，但只对那些满足一定条件的行，假设一列有不同国家的收入，而这一列在全国范围内都有缺失值，我只想为非英国市场填充缺失的值。怎么做？

浏览 7提问于2022-02-05得票数 0

2回答

使用Python填充时间序列中缺失数据的最佳方法是什么？

python、pandas、dataframe、time-series、missing-data

我第一次尝试使用python进行连续数据帧的案例研究，这是2006-2016年期间的属性时间序列数据但我在A、B、C、D列中缺少2015-16年的值，在E和F列中缺少2006-07。我正在尝试计算值并填充数据。我已经尝试了鼠标和插值，但不确定它是否正确。在python中应用哪种方法以及如何应用它？我已经浏览了以下链接：我应该使用预测方法而不是估算来填充数据吗？请帮帮忙。

浏览 1提问于2020-01-31得票数 0

2回答

根据另一行向前或向后填充

python、pandas

我有一个数据帧，如下所示： loc status ID 0 LA NaN NaN 1 CHC NaN NaN 2 NYC ARR 32 3 CHC DEP 45 4 SEA NaN NaN 我正在尝试根据status列来填充ID列中缺少的值。如果status列是"ARR"：我想向后填充，如果status列是"DEP"：我想向前填充，这样我的最终数据帧将如下所示： loc status ID 0 LA NaN 32 1 CHC NaN 32 2 NYC ARR 32

浏览 5提问于2017-02-02得票数 1

回答已采纳

1回答

对数据包/帧的散列部分进行散列以识别重复的数据包

monitoring、packet-analysis

考虑一个应用程序(主要是TCP/UDP，但不是严格意义上的TCP/UDP)，其中数据包大小不同，而且可能很长。用例/问题陈述是为了识别在网络中的多个点收集的重复帧。(这意味着如果我们从路由器X收集一个帧，从路由器Y收集一个帧，我们如何以很高的概率确定这些帧是否是同一帧).进一步假设我们可以相对便宜地在帧的第一个NNN字节上创建一个(好的)散列。在我看来，我认为散列可以在前100到200个字节附近的某个地方生成。这当然足以获得{L2、IP、TCP\UDP}报头以及最常见的应用程序协议，其中这些报头直接位于L4报头(HTTP、VOIP、流视频等)之后。只要我们能得到头和至少一点点的有效载荷“数据”

浏览 0提问于2015-04-14得票数 2

1回答

如果另一个数据帧之间的另一个列条目匹配，则从另一个数据帧的行条目填充pandas列

python-3.x、pandas

我正在尝试向数据帧中添加一个新列。首先，我想检查每一行的id是否存在于另一个数据帧中。如果是，那么我想用来自另一个数据帧的值填充我的行条目。例如，我想要查找的数据帧如下所示： id replays 0 2 1 1 5 1 2 6 2 3 8 3 4 12 1 我想要为其创建新列的dataframe最初看起来像这样，只有id： id 0 2 1 5 2 6 最终，应该使用如下所示的新列填充此dataframe，其中重放条目是那些与第一个dataframe中的id匹配的条目： id replays 0 2 1

浏览 11提问于2020-12-18得票数 0

回答已采纳

1回答

使用python查找两个数据帧的相关性

python、correlation

我正在处理一个数据集，在对两列执行了分组操作之后，我最终得到了具有最大数据点数量的两个存储桶。对于这两个存储桶，我创建了两个独立的数据帧，它们的形状不同(列数相同，行数不同)，以便进行比较。我需要知道我可以使用哪种转换来执行可能的两个数据帧的关联。我该怎么做呢？任何其他用于比较数据帧的建议都是值得赞赏的。

浏览 1提问于2018-10-11得票数 0

1回答

使用来自不同形状的另一个DataFrame的值填充pandas DataFrame

python、pandas、dataframe

我有一个包含四列的数据帧df2 : A，B，C，D。我想用来自另一个数据帧temp= (1，2，6.5，8，3，4，6.6，7.8，5，6，5，4)的值填充这个数据帧。 ? 我想要获得的信息在 ? 你知道该怎么做吗？

浏览 9提问于2020-12-15得票数 1

1回答

在df.at[]输出中使用字典替换

python、pandas、dataframe、for-loop

我有多个字典，在这些字典中，我试图根据数据帧中某列的值替换另一列的值。我有一个包含country和state列的数据帧。country列是一个字符串，state列是数字。我的字典是这样的： us_state = {1: 'Alabama', 2: 'Alaska', 3: 'Illinois', 4: 'Ohio'} can_state = {1: 'Edmonton, 2: 'Sasketchwan', 3: 'Manitoba'} 我最初的想法是在country列上使用一个for循环和

浏览 15提问于2021-07-29得票数 0

回答已采纳

1回答

在由lapply分配给数据帧的过程中发生了什么

r、dataframe、lapply

给定数据帧df和应用于df的函数f： df[] <- lapply(df，f) 用来自lapply的列表中的向量集合替换df中的列，R的魔力是什么？我看到lapply的结果是一个与dataframe df同名的向量列表。我假设已经完成了一些神奇的映射，将向量映射到df[]，这是df (methinks)中列的集合。就行了吗？试着更好地理解，这样我就能记住下一次要用什么。

浏览 14提问于2021-04-23得票数 0

回答已采纳

1回答

如何在R中编辑我的数据框(多列)？

r、csv、edit

我有一个有11列的CSV文件(但前8列我暂时忽略了)，后3列(9 - 11)很重要。我缺少第9列的一些数据，这些单元格显示为NA。但是为了填充这些单元格，我可以用列11乘以列10。我想创建一个数据框，其中第9列的所有内容都已填充，并将其另存为新的CSV文件。我首先尝试对列进行倍增。然后我尝试将新的第9列与我的数据框中的第9列合并，但R只是将这2列连接在一起。我希望已经计算的NA数据替换原始数据帧中的数据(所以我最终得到一个完整的列9)。另外，我只想用NA单元格乘以列，这样就不会替换原始数据。如何做到这一点？ col_9 <- matrix(dat[,10] * dat[,11],

浏览 27提问于2019-08-26得票数 0

1回答

是否在网格视图字符中填充彩色文本？

c#、c#-2.0

要求在网格视图中填充颜色文本，网格视图中的数据被加载，网格视图中的高亮显示笔在一个条件下，如较大的数量1.000或字符作为质量...请参阅附件中的图像文件

浏览 0提问于2015-03-19得票数 0

2回答

如何用相同的数组填充pandas数据帧

python、pandas、dataframe

尝试用数组填充熊猫数据帧(假设np.zeros(200))。如果我们想用一个值填充一个pandas数据帧： for col in df.columns: df[col].values[:] = 2 它工作得很好，但使用以下命令也是如此： for col in df.columns: df[col].values[:] = np.zeros(200) 不会起作用。我不明白为什么抛出错误(无法将输入数组X传播到形状Y中)，因为我认为我是单独填充数据帧的每个值，因此在我看来形状并不重要。

浏览 11提问于2019-10-07得票数 0

回答已采纳

2回答

将列添加到具有重复序列的数据帧中

python、pandas

我试图向数据帧中添加一个列，并让它预先填充一个重复序列。例如： new_column 1 2 3 4 5 1 2 3 4 5 . . . 有没有办法利用熊猫的功能来实现这个目标，而不需要运行循环呢？

浏览 0提问于2019-08-07得票数 1

回答已采纳

2回答

支持列表理解的Pandas DataFrame条件选择

python、pandas、numpy

我有一个有15列的数据帧，名为0,1,2，...,14。我想写一个方法来接受这些数据，以及一个长度为15的向量。我希望它返回根据我传递的这个向量有条件地选择的数据帧。例如，传递的数据是data_，传递的向量是v_，我想生成： data[(data[0] == v_[0]) & (data[1] == v_[1]) & ... & (data[14] == v_[14])] 然而，我希望这个方法是灵活的，例如，我可以传入名为0，...，99的100列的数据帧和一个长度为99的向量。我的问题是，我不知道如何巧妙地编程创建[(data[0] == v_[0]) &

浏览 14提问于2020-09-17得票数 0

2回答

用两级索引序列填充NA值

python、pandas、dataframe

我有一个包含列(A、B和value)的数据帧，其中value列中缺少值。数据帧中有两列(A和B)索引的序列。如何用序列中的相应值填充数据帧中的缺失值？

浏览 2提问于2017-05-05得票数 2

1回答

指定标签和中断时丢失的scale_fill_identity图例

r、ggplot2、legend、fill

我有这样的数据，我想在数据帧(颜色列)中指定填充颜色。我希望我的图例显示cut_value列中的值。当我同时指定标签和断点时，图例就消失了。传说显示，如果我只包括标签，而不是打破。但是，我需要指定中断，因为我需要它们在多个图之间保持一致，其中数据包含cut_value的不同数据范围。我如何包括标签和中断，并有填充传奇显示？ library(tidyverse) df <- data.frame(sample = letters[1:6], value = c(1,1.5,NA,3,4, 2)) %>% mutate(cut_value =

浏览 4提问于2021-02-08得票数 2

回答已采纳

1回答

使用numpy.ndarray填充数据帧中的缺失值

python、arrays、pandas、numpy、dataframe

我有一个数据帧和nparray，如下所示 import pandas as pd import numpy as np dic = {'A': {0: 0.9, 1: "NaN", 2: 1.8, 3: "NaN"}, 'C': {0: 0.1, 1: 2.8, 2: -0.1, 3: 0.5}, 'B': {0: 0.7, 1: -0.6, 2: -0.1, 3: -0.1},} df=pd.DataFrame(dic) print(df) A C B 0

浏览 42提问于2020-03-28得票数 1

回答已采纳

1回答

使用SparkR向Spark dataframes添加包含函数值的列

r、apache-spark、data-science、sparkr

我正在使用SparkR来处理一些在其技术堆栈中包含R和spark的项目。我必须使用从验证函数返回的布尔值创建新列。我可以使用spark数据帧和一个表达式轻松地完成这项工作： sdf1$result <- sdf1$value == sdf2$value 问题是当我必须比较两个不同长度的数据帧时。使用函数操作sdf1和sdf2数据帧并将值赋给sdf1的新列的最佳方式是什么？假设我想生成一个长度介于sdf1和sdf2之间的列。

浏览 3提问于2017-05-18得票数 0

1回答

从列表中提取数据，而不使用R中的循环

r、vector、matrix

我有一个带有行位置的向量v： v<-c(10,3,100,50,...) 有了这些位置，我想提取列表中的元素，有一个固定的列，例如，假设我的列号是2，所以我这样做： data<-c() data<-c(list1[[v]][[2]]) list1的数据格式如下： [[34]] [1] "200_s_at" "483" "1933" "3664" 因此，例如，我想从行342中仅提取值1910，列2，并对后续行执行相同的操作但是当我想要这样做的时候，我得到了一

浏览 0提问于2012-10-15得票数 1

回答已采纳

2回答

基于布尔条件的Pandas dataframe中的新列

python、pandas、dataframe

我想在Pandas数据框中创建一个新列，根据每个特定行中的其他值填充True或False。我解决此任务的方法是应用一个函数来检查数据帧中的每一行的布尔条件，并用True或False填充新列。这是数据帧： l={'DayTime':['2018-03-01','2018-03-02','2018-03-03'],'Pressure': [9,10.5,10.5], 'Feed':[9,10.5,11], 'Temp':[9,10.5,11]} df1=pd.DataFrame(l)

浏览 1提问于2018-03-22得票数 9

回答已采纳

2回答

Spark scala将数据框列复制到新的数据框

scala、apache-spark

我已经创建了一个带有模式的空数据帧。我正在尝试将新数据帧中的列添加到for循环中的现有列中。 K schema -|ID|DATE|报告ID|SUBMITTEDDATE| for(data <- 0 to range-1){ val c = df2.select(substring(col("value"), str(data)._2, str(data)._3).alias(str(data)._1)).toDF() //c.show() k = c.withColumn(str(data)._1, c(str(data)._1)) } k.show() 但

浏览 5提问于2017-10-03得票数 0

1回答

将单列拆分成多列

r、regex

浏览 29提问于2019-05-01得票数 0

回答已采纳

1回答

使用lapply对多个数据帧中的单个列中的值进行计数

r、list、dataframe、loops、lapply

我正在尝试计算数据帧的单个列中特定值出现的百分比。我使用以下代码加载单个数据帧，并计算sinlge列"Counter“中每个值的总计数。然后，我将其除以该数据帧中存在的行数，以获得百分比。 test <- read.csv("./subdata/Bur01.csv") test %>% group_by(Counter) %>% summarise(no_rows = length(Counter)) Counter no_rows <int> <int> 1 2 176 2

浏览 22提问于2021-06-01得票数 0

回答已采纳

1回答

如何用dataframe子部分中的另一列中的值替换一个列中的值？

dataframe、pyspark、pivot

我必须对dataframe的"activity“列执行group和pivot操作，并用"quantity”列之和填充由pivot产生的新列。但是，其中一个活动列必须使用“成本”列的总和填充。分组和支点之前的数据帧： +----+-----------+-----------+-----------+-----------+ | id | quantity | cost | activity | category | +----+-----------+-----------+-----------+-----------+ | 1 | 2

浏览 1提问于2022-08-01得票数 0

回答已采纳

1回答

限制数据帧字符长度

python、pandas、dataframe

我有一个旧的Fortran程序，可以读取.dat文件。我正在使用python处理一些文本文件，以便它们符合Fortran程序的严格输入风格。我首先导入文本文件并将其转换为数据帧。现在，我需要限制每列可以容纳的字符数。例如，第一列中有9个字符，第二列中有5个字符，依此类推。此外，在数据帧中有一行的字符数少于列限制的情况下，我需要填充它，使其满足限制。例如，某列限制为5个字符，但第n行包含的值为15，则新值需要为xxx15 我想做的事情是可能的吗？有人能帮上忙吗？谢谢:D

浏览 23提问于2019-09-30得票数 0

回答已采纳

1回答

ValueError:只能比较2.7中相同标记的Series对象

python-2.7、pandas

我试图比较两种不同数据帧中的一列，并得到一个错误。我的目标是确定df1中的playerID与df2中的playerID是否匹配。也不确定它是否有区别，但是每个数据帧中的数据都有不同的长度。下面是我的代码和数据帧的示例： cleaned_hof_df = hof_df[(hof_df.inducted == 'Y') & (hof_df.category == 'Player')] cleaned_hof_df.reset_index(drop = True, inplace = True) cleaned_hof_df.head(3) clean

浏览 2提问于2017-10-12得票数 1

回答已采纳

1回答

在什么情况下，Linux在选择出站帧的MAC地址时会忽略路由表？

linux、ip、kernel、route

虽然调试与运行在KVM下的一组虚拟机的网络配置有问题，但我发现了一种情况，即来宾VM中的内核已经决定用一个目标地址标记出的以太网帧，该地址与它在尊重内核IP路由表时所选择的地址相冲突。因此，在那个示例中，我期望将出站帧发送到de:ad: be :3b:24:48，它对应于拥有IP地址10.11.11.2并拥有一个路由到10.8.0.0/24的主机。实际发生的情况是，内核决定用目的地为00:10:db:ff:70:01来标记帧，这会将帧发送到10.11.11.1方向，这不知道如何路由到10.8.0.0/24，因此丢包。这一决定违反了当地的路由表，其中明确规定，通往10.8.0.0/24的路

浏览 0提问于2012-03-14得票数 2

回答已采纳

1回答

如何将名为Key的列添加到多个数据帧的字典中

python、pandas、dataframe、dictionary

给定一个包含多个数据帧的字典。如何向每个数据帧中添加一列，其中该df中的所有行都填充了键名称‘？ ? 我试过这段代码： for key, df in sheet_to_df_map.items(): df['sheet_name'] = key 这段代码确实在字典内的每个数据帧中添加了键列，但也创建了一个额外的数据帧。 ? 不能在不创建额外数据帧的情况下完成此操作吗？此外，我希望通过列数将数据帧从字典中分离出来。连接了10列的所有数据帧，连接了9列的数据帧，依此类推。我不知道该怎么做。

浏览 9提问于2021-09-09得票数 0

3回答

使用与来自数据框的唯一值相关联的值

我有一个类似这样的数据帧-例如，2列多行： A 2 A 7 B 1 B 3 B 6 C 2 我想在第一列的每个唯一值中对第二列中的项执行一些操作。我有过 unique.values <- sort(unique(mydata[,1])) 这部分用于获取每个唯一值，但我不知道如何将每个唯一因子与它在第二列中的值相关联。我需要能够完全独立地操作每一个，并希望能够计数行等。尝试使用grep，但不能做到这一点。感谢您能提供的任何帮助！

浏览 9提问于2010-10-16得票数 1

1回答

赋值给dataframe会将字符串更改为R中的列表

r、list、types、dataframe

我正在尝试用从第二个数据帧中提取的字符串来填充数据帧列。然而，当我尝试这样做时，列中的新条目变成了列表： for (i in nyc_districts$SUBWAY_STOP){ nyc_districts$SUBWAY_STOP[i]<-substops$V3[[i]] } class(substops$V3[[1]]) [1] "character" class(nyc_districts$SUBWAY_STOP[1]) [1] "list" 怎么一回事？如何将新条目转换为字符串？非常感谢！

浏览 6提问于2013-03-14得票数 1

1回答

如何避免python在相似的数据帧中添加不需要的列？

python、python-3.x

当我添加一个新的"NaN“列("C")到一个数据帧(比如df)来填充它时，它会被添加到其他类似的数据帧(这里是: sto)，这不是我的情况。那么，我应该如何避免这种情况并保持其他数据帧不变呢？ import numpy as np import pandas as pd df=pd.DataFrame({"A":[1,2,3],"B":[3,4,9]}) display(df) ? sto=df df.loc[:,"C"]=np.nan display(df) ? display(sto) ?

浏览 12提问于2021-03-30得票数 0

回答已采纳

1回答

为不同的列定义不同的时间序列

r、datetime、time-series、forecasting

我有一个数据帧，其中一些列的开始时间晚于另一列。请找一个可重复使用的例子。 set.seed(354) df <- data.frame(Product_Id = rep(1:100, each = 50), Date = seq(from = as.Date("2014/1/1"), to = as.Date("2018/2/1"), by = "month"),

浏览 0提问于2019-05-10得票数 0

3回答

如何正确过滤Pandas中的多列？

python、pandas、filtering

我使用这个数据集：https://www.kaggle.com/uciml/pima-indians-diabetes-database。我想根据行是否包含任何零来过滤数据帧(Outcome除外)。当我尝试根据一列过滤数据帧时，一切都很好： ? 但是，当我尝试过滤两列或更多列时，根据我是否这样做，我得到了不同的行数： ? 或者这样： ? 我分别得到429行和652行。因此，我尝试使用iloc进行过滤 ? 但这只会用NaN填充列，而不会删除行。它还改变了Outcome列，我希望它保持不变。这个iloc方法似乎只在一次过滤一列时有效。有没有什么方法可以一次

浏览 121提问于2021-11-21得票数 2

回答已采纳

3回答

在熊猫的另一个数据中填充值

python、pandas、dataframe

我有两张数据。在dataframe1中，我有一个列，其中包含一些空值。我希望使用另一个数据帧(即dataframe2 )的值来填充这些空值，方法是比较每个数据帧的不同列的值。 DataFrame 1： Col1 Col2 A Null B Null C NUll A 1000 B 1120 C 3200 数据框架2： Col1 Col2 A 500 B 110 C 320 现在，我希望用来自第二个dataframe的值填充第一个dataframe中的空值，其中dataframe1.col1 = dataframe2.col1 最终想要的输出

浏览 3提问于2018-01-20得票数 5

回答已采纳

1回答

将包含多个表的txt文件拆分为单个数据帧

python、pandas、dataframe、split、txt

我有一个从网站下载的txt文件。这个txt文件有许多观察值和不同的表。下面是一个例子：表1 "{'ID':'1','Column A':'Observation A', 'Column B':'Observation B',...}" "{'ID':'2','Column A':'Observation G', 'Column C':'Observation E',...}&

浏览 21提问于2021-02-24得票数 0

回答已采纳

1回答

ETL-ORACLE数据集成

oracle、oracle-data-integrator

我对Oracle数据存储中的集成有一些问题。我试图用相同的技术(甲骨文)来填充来自另一个数据存储的数据--我有这样的问题: java.sql.SQLException: ORA-12899: column pour la colonne“ODI”。“I$_AB_ART”。“LIBART”(réelle : 31，最大值: 28) --我假设我试图集成对目标列太久的数据。我怎样才能避免我的流量爆炸，换句话说，我想抓住E$表中的那些行。

浏览 1提问于2014-03-19得票数 1

回答已采纳

1回答

解析Pandas中的大字符串值

python、pandas、csv、dataframe

我有一个.csv，我已经从它生成了一个数据帧。此csv具有来自遵循以下格式的系统的原始数据输出： {"DataType1":"Value","DataType2":"Value","DataType3":"Value",.....} dataframe中的每一行在1列中只有这一行。我试图将其分解，以便数据类型成为列标题，而值填充到行中。另一个方面是，并非所有行都具有相同的数据类型，有些行具有其他行中可能不存在的其他数据类型。例如，行1可以具有DataType1、DataType2和DataType3

浏览 0提问于2018-11-16得票数 1

1回答

如何用其他数据帧中的值填充缺失的值

scala、apache-spark、join、apache-spark-sql

我有一个数据框，它有一个ID:String列、一个Type:Int列和一个Name:String列。此数据框的名称列中有许多缺失值。但是我还有另外三个数据帧，它们包含一个ID列和一个Name列。我想做的是用其他数据帧中的值填充第一个Dataframe中缺少的值。其他数据帧不包含属于第一个数据帧的所有in，而且它们还可以包含第一个数据帧中不存在的in。在这种情况下，正确的方法是什么？我知道我可以组合两个DFs，如下所示： df1.join(df2, df1("ID")===df2("ID"), "left_outer") 但是，由于我知道第

浏览 3提问于2016-09-24得票数 1

回答已采纳

1回答

创建包含n个其他列表中按比例数量的数据的列表

python、apache-spark

PySpark编程新手。我一直在尝试这个问题，想知道是否有更有效的方法来解决它。我有15个数据帧，每个数据帧包含2列:网站名称和点击量。这些数据帧中的每一个都有不同数量的记录。我想要一个最终的数据帧，在这里我从每个数据帧(基于命中率)中获取最高记录，并将它们添加到那里。问题是，我从每个数据库中提取了一定数量的记录。例如，如果我最终想要1500条记录，而我只有2个大小分别为10000和5000的数据帧，那么我将从第一个数据帧中提取1000条数据帧，从第二个数据帧中提取500条数据帧。所以目前，我有一个类似这样的实现：每个数据帧上的调用计数()。现在我有了每个数据帧的长度，这样我就可以根据命

浏览 1提问于2017-09-11得票数 0

1回答

使用多列抛出ValueError遍历数据帧

python、pandas、dataframe、multiple-columns、multi-index

我正在尝试申请一个Pandas数据帧内的循环，以便一次访问两列。我的这段代码可以很好地处理单个列。但是当应用于多个列时，它会抛出："ValueError :要解包的值太多(预期为2)“ 我的代码片段如下： <code>A0</code> 小问题是列名太大且无法控制，因为此数据帧具有多标头列，因此在合并后，它们会创建一些随机填充名称。因此有了".startswith“这个词。列名要大得多。我尝试基于列1和列2对列3执行groupby，如果列2不为null，则使用column1执行groupby。有人能告诉我我哪里错了吗，或者我遗漏了什么？

浏览 16提问于2021-06-14得票数 2

回答已采纳

1回答

在R中写入SAS XPORT文件，指定长度大于字符变量的最大实际值

r、sas

如何将R数据帧写入SAS xpt格式并指定每列的长度？例如，在一个文本变量列中，最长的字符串是157个字符，但是我希望字段长度属性有200个字符。包haven似乎没有这个选项，包SASxport的文档在这个问题上也不太清楚。

浏览 0提问于2018-01-22得票数 0

回答已采纳

1回答

如何使用备用列合并R中的数据帧

r、dataframe、join、merge

我试图合并R中的两个数据帧，但是我有两个不同的列，具有不同类型的ID变量。有时，行将具有其中一个列的值，而不是另一个列的值。我想把它们都考虑进去，这样如果一个帧缺少一个列的值，那么另一个就会被使用。 > df1 <- data.frame(first = c('a', 'b', NA), second = c(NA, 'q', 'r')) > df1 first second 1 a <NA> 2 b q 3 <NA> r > df2 &

浏览 0提问于2018-08-31得票数 0

回答已采纳

2回答

根据条件火花选择列

pyspark

我的dataframe df1中有这样的列，其中以20开头的列是动态生成的。我可以使用以下方法将以20开头的列重命名为2019_p、2020_p、2021_p df.select(*[col(c).alias(f"${c}_p") if c.startswith("20") else col(c) for c in df.columns]) 现在我有了两个数据帧，一个原始数据帧和另一个数据帧，列以20开头，以_p结尾。我希望根据不带_p或with_p的非空列来最终选择列。如何实现这一点？

浏览 7提问于2022-10-31得票数 0

回答已采纳