合并两个exprs()数据帧_合并两个大型数据帧_如何合并两个数据帧 - 腾讯云开发者社区

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

对于下面的数据帧 df=spark.createDataFrame(data=[('Alice',4.300),('Bob',7.677)],schema=['name','High']) 当我试图找到最小和最大值时，我只能在输出中得到最小值。 df.agg({'High':'max','High':'min'}).show() +-----------+ |min(High) | +-----------+ | 2094900| +-----------+

浏览 1提问于2017-06-06得票数 11

回答已采纳

1回答

如何在R中进行动态数据帧索引

r、dataframe、indexing、dynamic

我有两个数据帧:酱料和规则。rules有一个名为fieldname的列，它由sauce中的列名组成。规则有一个名为fieldvalue的行，它由与sauce中的列名相关的字段组成。我想根据规则的字段名和字段值从sauce中提取数据。我试图使用for循环，但它们花费的时间太长，并且无法从中获得正确的结果。 > sauce <- data.frame(Type = c("ketchup","mustard","mayo","lite-mayo","ketchup"), Brand = c("Hei

浏览 2提问于2019-06-01得票数 0

1回答

使用列名数组聚合Spark数据框，并保留这些名称

scala、apache-spark、apache-spark-sql、aggregate-functions

我希望使用列名数组作为输入来聚合Spark数据帧，同时保留列的原始名称。 df.groupBy($"id").sum(colNames:_*) 这是可行的，但不能保留名称。受到找到的答案的启发，我尝试了一下，但没有成功： df.groupBy($"id").agg(sum(colNames:_*).alias(colNames:_*)) error: no `: _*' annotation allowed here 它可以接受单个元素，比如 df.groupBy($"id").agg(sum(colNames(2)).alias(col

浏览 4提问于2016-09-08得票数 4

回答已采纳

5回答

星星之火数据帧的同一列上的多个聚合操作

apache-spark、dataframe、apache-spark-sql

我有三个字符串类型数组，包含以下信息： groupBy数组:包含要对数据进行分组的列的名称。聚合数组:包含要聚合的列的名称。操作数组:包含我要执行的聚合操作。我正在尝试使用火花数据帧来实现这一点。Spark数据帧提供了一个agg()，您可以在其中传递一个Map 作为输入，但是我希望对数据的同一列执行不同的聚合操作。对于如何做到这一点，有什么建议吗？

浏览 8提问于2016-01-22得票数 40

回答已采纳

2回答

在PySpark中计算groupby后的sum和countDistinct

python、pyspark、group-by、aggregate-functions、distinct

我有一个PySpark数据框架，我想按几列分组，然后计算一些列的总和，并计算另一列的不同值。因为countDistinct不是一个内置的聚合函数，所以我不能使用我在这里尝试过的简单表达式： sum_cols = ['a', 'b'] count_cols = ['id'] exprs1 = {x: "sum" for x in sum_cols} exprs2 = {x: "countDistinct" for x in count_cols} exprs = {**exprs1, **exprs2} df_a

浏览 126提问于2021-09-16得票数 2

回答已采纳

1回答

在scala spark中以编程方式为groupBy-Max函数创建别名

scala、apache-spark

var exprs = dfx.columns.map(max(_)) var df2 = df1.groupBy("x","y","z").agg(exprs.head, exprs.tail: _*) df2.printSchema() 此命令的输出将创建一个数据帧 root |-- x: string (nullable = true) |-- y: string (nullable = true) |-- z: double (nullable = true) |-- max(a): double (nullable = true

浏览 1提问于2018-01-18得票数 0

回答已采纳

2回答

基于行值的条件连接过滤

scala、apache-spark、join

我有两个数据帧需要连接在一起。我们将连接两个列，但是，这两个列不是ids，并且不会在其他数据帧中产生唯一的行值。例如，两个数据帧将如下所示： Dataframe 1 product_no dist code 040 wmn aj 040 wmn lm 040 wmn mn Dataframe 2 p_no vendor code product 040 wmn ** y 040 wmn *j

浏览 0提问于2018-11-08得票数 0

1回答

使用dplyr 1.0中的tidyeval一次总结多个函数

r、dplyr、tidyverse、rlang、tidyeval

假设我们有一个数据帧， library(tidyverse) library(rlang) df <- tibble(id = rep(c(1:2), 10), grade = sample(c("A", "B", "C"), 20, replace = TRUE)) 我们想要得到按id分组的分数的平均值， df %>% group_by(id) %>% summarise( n = n(), mu_A = mean(grade == "A

浏览 16提问于2020-10-02得票数 0

2回答

通过消除空值将Apache中的行合并

python、scala、apache-spark、pyspark、apache-spark-sql

我有一个火花数据框架，如下所示 +---+----+----+----+----+----+----+ | id| 1| 2| 3|sf_1|sf_2|sf_3| +---+----+----+----+----+----+----+ | 2|null|null|null| 102| 202| 302| | 4|null|null|null| 104| 204| 304| | 1|null|null|null| 101| 201| 301| | 3|null|null|null| 103| 203| 303| | 1| 11| 21| 31|null|null|nu

浏览 1提问于2020-06-13得票数 2

回答已采纳

1回答

合并两个exprs()数据帧

r、bioinformatics、bioconductor

我有两个ExpressionSets，我想合并成一个叫做exprs.br.ov，包括每个基因的所有样本的值(并不是所有的基因都存在于两个集合中)。第一个是exprs(br.samp)，它包含48107行(基因)和3列(样本)。第二个是exprs(ov.samp)，它有49576行和6列。我试过了(在我的笔记本电脑上花了几分钟)： exprs.br.ov <- merge(exprs(br.samp), exprs(ov.samp)) 我可以发送完整的数据集，但这里是两个数据集分别显示的示例： exprs(br.samp)[1000:1005,] GSM16

浏览 28提问于2019-06-18得票数 0

1回答

Sparklyr on Databricks -在具有多个NaN值的sparklyr数据帧上按行取多列的平均值

r、dplyr、databricks、sparklyr、azure-databricks

我正在尝试为sparklyr数据帧创建最小、最大和平均列。我只想在计算中按行使用该大型数据帧中的5列。列中有许多NaN值，这些值可能是计算对象。在标准R中，使用的代码是： df_train$MinEncoding <- spark_apply(df_train,f=min ,columns=[,EncodingFeatures], 1, FUN=min,na.rm=TRUE) df_train$MaxEncoding <- spark_apply(df_train[,EncodingFeatures], 1, FUN=max,na.rm=TRUE) df_train$Mean

浏览 13提问于2019-10-15得票数 1

3回答

Spark SQL:将聚合函数应用于一列列表

apache-spark、dataframe、apache-spark-sql、aggregate-functions

在执行groupBy时，有没有一种方法可以将聚合函数应用于数据帧的所有(或一列)列？换句话说，有没有一种方法可以避免对每一列都这样做： df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

浏览 1提问于2015-11-24得票数 88

回答已采纳

1回答

熊猫合并两个数据帧是否存在已知问题，每个数据帧都有一个日期时间类型的索引

pandas

我合并了两个数据帧，每个数据帧都有一个日期时间类型的索引，因此得到的数据帧的行数比原来的多。这两个数据帧具有相同数量的记录，每个和相同的索引值。看一下--我发现同一索引上有重复的记录--这是一个已知的问题吗？守则： df_merged = df1.merge(df2, left_index=True, right_index=True)

浏览 2提问于2022-01-18得票数 0

2回答

从数据帧中的列中删除小数

r、dataframe、type-conversion

我有一个数据框架，列中有数字，这些数字是小数。我要删除列中的小数和蚂蚁整数。我的数据帧显示如下 ENSG00000226823.1 15 14.4947 22.5606 13.5819 5.09327 16.8503 ENSG00000266470.1 0 0 0 0 0 0 ENSG00000229435.2 0 0 0 0

浏览 3提问于2016-11-03得票数 4

回答已采纳

1回答

PySpark -获取数据帧中动态列的聚合值

pyspark、pyspark-dataframes

浏览 2提问于2020-05-26得票数 0

回答已采纳

1回答

基于函数参数的r data.table对象转换方法

r、data.table、user-defined-functions

我想创建一个r函数，它包含两个参数： data.table对象有关如何向数据表中添加新列的说明。这些新列是已经存在的列的转换。没有包装功能的： # load data.table library library(data.table) # the exsample data set dt <- data.table(mtcars) # adding some new columns dt[, `:=`(disp_plus_hp = disp + hp, drat_plus_wt = drat + wt)] 我知道我可以用eval + parse

浏览 0提问于2018-12-15得票数 0

回答已采纳

1回答

不带重复项的Pandas外连接添加新行

python、pandas、dataframe、outer-join

我有两个数据帧preds和assets_to_remove。下面是dataframe preds的外观： asset_id asset_name 294771 493646671302244 queue_bar 294770 503848157271852 refactor_target 294769 786314528522899 submission_tray 294768 206472013793428 state_subscriber 294767 510707746509671 for

浏览 23提问于2021-07-07得票数 1

回答已采纳

1回答

如何在pandas中执行多列的内连接

python、pandas

我有2个数据帧，即accidents_data，它有15列，bad_air_quality_data数据帧，它有5列。现在我想在列‘地区名称’，‘工作日’，‘小时’，‘月’上对两个数据框进行内部连接，最后在连接后只保留来自accidents_data的数据。 accidents_data： bad_air_quality_data：我尝试使用以下行合并这两个数据帧，但没有显示任何结果。 accidents_data_bad_air = pd.merge(accidents_data, bad_air_quality_data, on=['District Nam

浏览 3提问于2019-03-08得票数 0

2回答

如何在SataFrame中填充缺失的值？

scala、apache-spark、dataframe、apache-spark-sql

在查询mysql db并构建相应的数据框架后，我将看到以下内容： mydata.show +--+------+------+------+------+------+------+ |id| sport| var1| var2| var3| var4| var5| +--+------+------+------+------+------+------+ | 1|soccer|330234| | | | | | 2|soccer| null| null| null| null| null| | 3|soccer|330101|

浏览 3提问于2016-04-11得票数 0

回答已采纳

1回答

如何比较两个表中的多列并找出重复的列？

python-3.x、pandas、dataframe

我有两个数据帧数据帧1 ? 数据帧2 ? ID列在两个表中不唯一。我想要比较两个表中除ID之外的所有列，并打印唯一行预期输出 ? 我尝试了“isin”函数，但不起作用。每个数据帧大小为150000，我删除了两个表中的重复项。请建议如何做到这一点？

浏览 20提问于2020-11-03得票数 0

2回答

如何跨Array[DataFrame]组合(连接)信息

scala、apache-spark、spark-dataframe

我有一个ArrayDataFrame，我想检查每个数据帧的每一行是否有任何按列的值变化。假设我有三个数据帧的第一行，比如： (0,1.0,0.4,0.1) (0,3.0,0.2,0.1) (0,5.0,0.4,0.1) 第一列是ID，我对这个ID的理想输出是： (0, 1, 1, 0) 这意味着第二列和第三列发生了变化，而第三列则没有变化。我在这里附加了一些数据来复制我的设置 val rdd = sc.parallelize(Array((0,1.0,0.4,0.1), (1,0.9,0.3,0.3),

浏览 2提问于2015-12-28得票数 3

回答已采纳

1回答

标准化Spark DataFrame中多个列的值，仅使用DataFrame接口

apache-spark、pyspark

我试图通过减去平均值并除以每列的stddev来标准化spark数据帧中多个列的值。以下是我到目前为止拥有的代码： from pyspark.sql import Row from pyspark.sql.functions import stddev_pop, avg df = spark.createDataFrame([Row(A=1, B=6), Row(A=2, B=7), Row(A=3, B=8), Row(A=4, B=9), Row(A=5, B=10)]) exprs = [x - (avg(x)) / stddev

浏览 0提问于2016-10-12得票数 4

1回答

如何在pandas中合并多索引(名称，日期)和列日期，同时保持多索引？

python、pandas、merge

我有两个熊猫数据帧。df1由多个索引(名称、日期)编制索引。df2是一个简单的0到n的索引，有一个'Date‘列。我的问题是如何按日期合并这两个数据帧，同时保持多索引。我使用下面的命令来合并。合并后的数据帧不再具有多索引。 df_merg = pd.merge(df1, df2, how='left', left_on='date', righ_on='Date')

浏览 15提问于2019-09-27得票数 0

1回答

Python DataFrame将两个时间序列数据帧相乘

python、pandas

我有两个数据帧。第一数据帧具有一年能量，时间间隔为30分钟。第二个数据帧是30分钟的一天价格数据。如何将两个数据帧相乘，得到第二个数据帧在第一个数据帧的每天重复相乘的结果？非常感谢!

浏览 29提问于2017-08-19得票数 1

回答已采纳

1回答

如何在pandas SQL中进行内部连接，在下面遇到一个问题

python、sql、pandas、dataframe、sklearn-pandas

我有两个名为" df“的df，第二个名为"topwud”。 df topwud 当我连接这两个数据帧时，使用BOMCPNO和PRTNO作为连接列喜欢 second_level=pd.merge(df,top_wud ,left_on='BOMCPNO', right_on='PRTNO', how='inner').drop_duplicates() 然后我得到了这个数据框 Result 我不希望常见的名称出现为PRTNO_x和PRTNO_y，我希望在我的结果数据帧中只保留PRTNO_x作为名称"PRTNO“，这是默认

浏览 7提问于2020-01-07得票数 1

1回答

使用另一个数据框列从数据框中选择行

python、pandas、dataframe

我有两个数据帧。第一个有2列- a)全名b)第二个电话号码有1列-名称我试图实现的是，存在于第二个数据帧中的名称与存在于第一个数据帧中的名称相匹配-仅存在于两个数据帧中的名称将与另一个数据帧中的第一个数据帧中的电话号码一起保存。基本上，我能够实现的是比较两个不同名称的文件，并获得它们之间的通用名称。第一个文件有电话号码，而第二个文件没有。我想要实现的是将电话号码添加到匹配的名称中。 df3=df1.loc[df1["Full Name"].isin(df2["Name"])] Error - get_loc return self._engine.get_lo

浏览 2提问于2021-06-17得票数 0

2回答

如何将长数据转换为宽数据

pyspark、apache-spark-sql、pyspark-dataframes

我有一张数据文件看起来像： group, rate A,0.1 A,0.2 B,0.3 B,0.1 C,0.1 C,0.2 如何将此转换为宽数据帧。这就是我希望得到的： group, rate_1, rate_2 A,0.1,0.2 B,0.3,0.1 C,0.1,0.2 每个组中的记录数是相同的，以及如何在换位时创建具有前缀或后缀的一致列名？你知道我能用哪种功能吗？谢谢,

浏览 3提问于2020-08-19得票数 0

回答已采纳

2回答

我是否应该连接功能和目标数据帧，以便与scikit-learn一起使用？

pandas、scikit-learn

我正在尝试创建一个回归模型来使用设计参数(dataframe 1)来预测可交付成果(dataframe 2)。这两个数据帧都有一个id号，我将其用作索引。是否可以使用两个数据帧为sklearn创建一个数据集？或者我需要加入他们？如果我需要加入他们，那么最好的方式是什么？ # import data df1= pd.read_excel('data.xlsx', sheet_name='Data1',index_col='Unnamed: 0') df2= pd.read_excel('data.xlsx', sheet_nam

浏览 0提问于2021-04-12得票数 0

1回答

连接多个数据帧，同时保留主数据帧的行数

python、pandas、dataframe、join、merge

我有一个pandas数据帧，我用它来创建另外两个数据帧。在创建两个数据帧之后，我希望将这两个数据帧与原始数据帧合并，保留原始数据帧的计数。有没有更简单的方法呢？原始数据帧示例： ? 第一个数据帧示例： ? 第二个数据帧示例： ? 最终输出应如下所示： ? 当我尝试这样做时，我得到的行数要么是原来的两倍，要么是行数的一半。

浏览 13提问于2021-06-24得票数 0

1回答

pandas通过一个偏移量合并两个数据帧

python、pandas

我有两个数据帧。数据帧A如下所示 date quantity 0 2008-08-08 1000 1 2008-08-11 2000 2 2008-08-12 3000 ..... 数据帧B是 date address 0 2008-08-08 xyz 1 2008-08-11 abc 2 2008-08-12 def ..... 我们的目标是将B[index]与A[inde

浏览 2提问于2020-10-20得票数 0

1回答

使用ffmpeg在音频文件中添加单词间的沉默

ffmpeg、ffmpy

我要做的是对包含短音频的concat wav文件进行处理。我可以将它们放入一个文件中，但我试图在特定的时间设置每个文件。目前，我可以concat的文件，但我不能把每一个在特定的时间，他们需要是。我想也许我可以在他们之间增加适当的沉默，这样才能解决问题。我是ffmpeg的新手我有一个带有文件名的文本文件，即text.txt file a.wav file b.wav file c.wav 我用这个cmd： ffmpeg -f concat -i text.txt out.mp3 这是可行的，但是否有办法在它们之间增加特定数量的默哀时间呢？我试着把这个放在文本文件中，但是没有用： file

浏览 2提问于2018-07-12得票数 1

回答已采纳

1回答

将数据从S3读取到pandas的最佳方法

python、pandas、amazon-web-services、amazon-s3、amazon-ec2

我有两个CSV文件，一个大约60 GB，另一个在S3中大约是70 GB。我需要将这两个CSV文件加载到pandas数据帧中，并对数据执行连接和合并等操作。我有一个EC2实例，它有足够的内存供两个数据帧一次加载到内存中。从S3到pandas数据帧读取这么大的文件的最佳方式是什么？另外，在我对数据帧执行了所需的操作之后，输出的数据帧应该被重新上传到S3。将巨大的csv文件上传到S3的最佳方式是什么？

浏览 5提问于2020-05-06得票数 0

1回答

合并两个数据帧

dataframe、combine

我有两个数据帧: df1有columns - id，Text，imageid，label df2有columns - imageid，imageurl 我想组合这两个数据帧，这样imageurl应该链接到df1中它们对应的imageid。有人能指导我怎么做吗？

浏览 3提问于2021-11-28得票数 0

1回答

使用Pandas查找其他两个数据帧中的重复项和唯一元素？

python、pandas、dataframe

我有两个从XML数据创建的数据帧；它们有每个文件的文件名和路径的列表，包括一些额外的元数据。像这样的东西 filename - filepath - meta1 - meta2 - meta3 基本上，每个数据帧中的文件可能在另一个数据帧中具有相同的文件名，但它们将位于不同的路径中。我正在尝试比较这两个数据帧，以找出哪些文件在这两个数据帧中是唯一的，以及哪些文件名在这两个数据帧中是通用的。我将只查看文件名；因此，如果一个文件存在于两个数据帧上，即使路径不同，我也会将它们视为重复。在指定我只想使用filename列之后，我开始研究各种Pandas方法，并找到了适用于我的示例的drop_dup

浏览 28提问于2020-11-09得票数 0

1回答

分段UDP帧-使用tcpreplay或scapy发送时仅接收一个帧

udp、ip、scapy、pcap、tcpreplay

我正在从一个包含单个.pcap数据报的UDP文件中重放，该数据报已被分成两个帧。当使用tcpreplay或scapy时，两个程序都显示发送了两个帧，但我在直接连接的设备上只收到1帧。你知道为什么吗？数据包捕获位于编辑:连接的设备是防火墙，而我正在运行tcpdump，所以我希望看到两个帧 Edit2:防火墙上的tcpdump应该打印它接收到的所有数据包，即使它由于某种原因而被丢弃。但是，这是tcpdump打印的唯一数据包： 968.681737 lan in 172.23.0.5.1812 -> 172.16.0.4.37507: udp 1434 (frag 4486:1424@0+

浏览 12提问于2017-07-13得票数 0

3回答

使用现有查询在函数中创建新表达式(dplyr编程)

r、dplyr、rlang、quosure

我试图根据函数中的参数来创建“新表达式”，但我不确定如何创建这个新表达式。这是一个例子，我传递了一个分子和分母，理想情况下会对这两个分子和分母进行突变，但也希望在将它们分开的地方进行突变： df <- tibble( g1 = c(1, 1, 2, 2, 2), g2 = c(1, 2, 1, 2, 1), a = sample(5), b = sample(5) ) my_divide <- function(df, numerator, denominator) { numerator <- enquo(numerator) denomina

浏览 5提问于2018-02-09得票数 0

1回答

是否有一个R函数可以基于部分相似的字符串来匹配数据框列？

r、string、string-matching

我正在尝试基于部分对应的字符串来匹配R中两个数据帧的列。下面您将找到我的数据帧的一个小示例。数据帧1包含与数据帧2中的字符串匹配的激励字符串，后面带有"_FAM“。数据帧1： Stimulus Mean CR00 0.333 CR01 0.972 DF_0_30 0.831 DF_6_40 0.327 数据帧2： Stimulus Mean DF_0_30_FAM 0.423 CR00_FAM 0.768 DF_6_40_FAM 0.672 CR01_FAM 0.012 有没有工具可以与此相匹配

浏览 21提问于2021-09-28得票数 0

1回答

使用R-比较数据帧的不同列和一组有效的列组合

r、dataframe

我使用带有RVersion3.2.2的RV3.2.2，并希望在数据帧中筛选行，其中只希望看到那些行，其中两个列的值组合与第二个数据帧中的有效组合存储值对不匹配。我听说R不是设计成以一种高效的方式使用循环的，所以我在寻找一个不使用循环的解决方案，如果有循环的话。使用我缩小的这个示例数据，第一个数据帧dfItem包含项ID和两个状态。 > dfItem ID Status_1 Status_2 1 1 1 1 2 2 1 2 3 3 2 1 4 4 3 3 5 5

浏览 1提问于2016-01-27得票数 1

回答已采纳

1回答

基于键的火花源数据模式的高效推断

python、json、apache-spark、pyspark、spark-dataframe

我有大量的json行(行)数据集。行有几个字段，存在的字段依赖于该行中的一个json字段。下面是一个很小的例子： %pyspark data = sc.parallelize([{'key':'k1','a':1.0,'b':2.0}, {'key':'k1','a':1.0,'b':20.0}, {'key':'k1','a':100.0,

浏览 0提问于2016-02-20得票数 1

回答已采纳

2回答

使用列名数组中的UDF将列合并到单个映射中

scala、apache-spark、dictionary、apache-spark-sql、user-defined-functions

因此，我有一个数据帧，这些值需要相加在一起，然后转换成Map[String,Long]格式保存到Cassandra中。下面的代码可以工作，但是我想知道是否可以基于列的抽象列表来创建映射。(查看source code的功能只会让我更加困惑)。 var cols = Array("key", "v1", "v2") var df = Seq(("a",1,0),("b",1,0),("a",1,1),("b",0,0)).toDF(cols: _*) val df1 = df.gro

浏览 11提问于2019-06-28得票数 1

回答已采纳

1回答

根据应用于两个数据帧的条件创建第三个数据帧

python、pandas、dataframe、conditional

我有两个数据帧： df1 = pd.DataFrame(rng.rand(1000, 3), columns=['A', 'B', 'C']) df2 = pd.DataFrame(rng.rand(1000, 3), columns=['A', 'B', 'C']) 我还有一个由"Y“和”N“组成的列： df0['Split'] = ['Y', 'N', 'Y'...] 我想创建第三个数据帧，如果df0'Split‘

浏览 16提问于2019-01-14得票数 1

回答已采纳

1回答

Python合并两个DataFrames仅检索结果中的特定列

python、pandas、dataframe、merge

? 您好-我想合并两个python DataFrames，但不想将这两个数据帧中的所有列都带到我的新数据帧中。在下图中，如果我在“acct”上加入df1和df2，并希望从df1中取回所有列，而从df2中仅取回“entity”，我该如何编写？我不想丢弃任何列，所以做一个普通的合并不是我想要的。有人能帮上忙吗？谢谢!

浏览 32提问于2020-12-10得票数 0

回答已采纳

2回答

在Pandas Python中梳理两个数据帧

python、pandas

我想合并两个数据帧我想将这两个数据帧合并在一起，这样帐户就是一样的。例如，acct 10应该在CME和NISSAN中取值，而其余的都是零。

浏览 0提问于2019-02-19得票数 1

3回答

Python Pandas -合并条件

python、pandas、merge、conditional-statements、between

我在python pandas中有两个数据帧数据帧1 User_id zipcode 1 12345 2 23456 3 34567 数据帧2 ZipCodeLowerBound ZipCodeUpperBound Region 10000 19999 1 20000 29999 2 30000 39999 3 如何使用pandas merge将区域中的数据映射到条件为if(df1.zipcod

浏览 3提问于2016-10-29得票数 3

1回答

如何编写多个条件下的星火数据？

scala、apache-spark、dataframe、apache-spark-sql

我必须连接两个数据帧，并根据某些条件选择它的所有列。下面是一个示例： val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ SparkConf, SparkContext } import java.sql.{Date, Timestamp} import org.apache.spark.sql.Row import org.apache.spark.sql.types._

浏览 0提问于2018-01-30得票数 3

回答已采纳

2回答

为什么结果在`inner_join`之后包含不完全变量？

我试图使用inner_join合并两个data.frames。我面临的问题是，合并结果只包含在其中一个data.frames中的变量。我希望看到两个数据帧以一种不匹配的观测被删除的方式被合并，并且这两个数据帧中的变量仍然包含在其中。在我的例子中，这两个数据帧名为cpds和gtd。我确信我有两个唯一的标识符(在我的例子中是state & year)，这两个变量名在这两个数据帧中是相同的。尽管结果确实降低了所有不匹配的观测值；但是，它只包含在其中一个数据帧中的变量。这是我的代码： library(dplyr) terdemo <- inner_join(cpds,gtd) 然后

浏览 6提问于2017-03-13得票数 0

回答已采纳

2回答

如何在不获取额外行的情况下合并两个数据帧？

python、pandas

基本上，我有两个数据帧，第一个看起来像这样： ? 第二个是这样的： ? 我想要获取第二个数据帧的"lat“和"lnt”列，并仅当两个数据帧中的城市名称匹配时才添加到第一个数据帧中。我尝试使用pd.merge()，但它创建了具有重复值的新行。如果可能，我希望在没有任何匹配的行中放置一个NaN，但我不想删除或添加行到原始数据帧。

浏览 19提问于2021-08-12得票数 0

回答已采纳

1回答

创建dplyr语句，以便稍后在R中计算

r、dplyr、rlang

我想要创建一个名为eval_data的函数，用户可以在其中输入数据帧列表应用于数据帧的dplyr函数列表，从每个数据帧中选择的列列表：这看起来像： eval_data <- function(data, dplyr_logic, select_vector) { data %>% # this doesn't work eval(dplyr_logic) %>% select( { select_vector } ) } dplyr_logic是以下任一项的列表： nothing 突变语句2变位语句过滤器<co

浏览 3提问于2020-04-29得票数 3

回答已采纳

1回答

如何合并或连接spark中列号不相等的数据帧

python、apache-spark、pyspark、apache-spark-sql、spark-dataframe

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的数据帧，请指导我

浏览 13提问于2016-09-22得票数 0

1回答

表现集-表型数据

r、bioconductor

首先，我必须说，我刚刚开始使用R进行编程，我无法创建数据的表达式集。当我试图将分析数据和表型数据放在一起以生成表达式集时，我会得到一个错误： validObject(.Object)中的错误：“无效类""ExpressionSet"”object: sampleNames在assayData和phenoData之间的差异“ 请看一下样本数据，我制作的表型表和R-程序.我想应该对表型数据进行修改，以使其发挥作用。请让我知道如何解决这一问题，并改变表型。 AssayData

浏览 0提问于2011-09-09得票数 3