Sparklyr在spark数据帧中填充NA/NULL

Sparklyr是一个R语言的包，用于在Apache Spark中进行数据处理和分析。它提供了一个高级接口，使得R用户可以利用Spark的分布式计算能力来处理大规模数据。

在Spark数据帧中填充NA/NULL可以通过使用sparklyr中的函数来实现。具体而言，可以使用na.fill()函数来填充缺失值。该函数接受两个参数，第一个参数是要填充的列名或列索引，第二个参数是要填充的值。

以下是一个示例代码，演示如何使用sparklyr来填充Spark数据帧中的NA/NULL值：

library(sparklyr)

# 连接到Spark集群
sc <- spark_connect(master = "local")

# 创建一个Spark数据帧
df <- copy_to(sc, iris)

# 填充NA/NULL值
df_filled <- df %>% na.fill("Sepal.Length", 0)

# 查看填充后的数据帧
collect(df_filled)

在上述示例中，我们首先使用spark_connect()函数连接到本地的Spark集群。然后，使用copy_to()函数将R中的数据框iris复制到Spark中，创建一个Spark数据帧df。接下来，我们使用na.fill()函数将df中的"Sepal.Length"列中的NA/NULL值填充为0。最后，使用collect()函数将填充后的数据帧收集到R中并进行查看。

Sparklyr的优势在于它提供了一个简洁而强大的接口，使得R用户可以利用Spark的分布式计算能力来处理大规模数据。它还提供了许多其他功能，如数据过滤、聚合、排序、连接等，以及与Spark的机器学习库集成，使得用户可以进行复杂的数据分析和建模。

推荐的腾讯云相关产品和产品介绍链接地址如下：

腾讯云Spark服务：提供了基于Apache Spark的大数据处理和分析服务。详情请参考：腾讯云Spark服务

请注意，以上答案仅供参考，具体的解决方案可能因实际需求和环境而有所不同。

Sparklyr在spark数据帧中填充NA/NULL

、、

我想将spark数据帧中的NA/NULL分配给它最近的邻居。我来自R背景，所以我使用了sparklyr，但想不出一种方法。e NA 因此我想填充Numer列，ID1na表示ID2 Nume1，ID5表示id4和6 (6或5)，ID10表示ID9Value ( 10 )。它可以很容易地在R中完成。有没有办法通过Sparklyr在<e

浏览 0提问于2017-08-08得票数 2

回答已采纳

1回答

如何将SparkR转换为sparklyr？

、、、

如何将SparkR中的SparkDataFrame转换为sparklyr中的tbl_spark有什么建议可以解决这个问题吗？谢谢!

浏览 6提问于2020-11-06得票数 2

1回答

如何使用'sparklyr::replace.na()‘替换一列上的NaN？

、、

我正在使用sparklyr与spark进行交互。我正在尝试仅替换一列中的NaN值。是否可以使用sparklyr函数replace.na()，但仅将其应用于一列？我检查了文档，但它对我没有帮助。此类似，但答案更改了整个数据帧中的所有NaN值。

浏览 0提问于2019-05-15得票数 0

1回答

Sparklyr on Databricks -在具有多个NaN值的sparklyr数据帧上按行取多列的平均值

、、、、

我正在尝试为sparklyr数据帧创建最小、最大和平均列。我只想在计算中按行使用该大型数据帧中的5列。列中有许多NaN值，这些值可能是计算对象。在标准R中，使用的代码是： df_train$MinEncoding <- spark_apply(df_train,f=min ,columns=[,EncodingFeatures], 1, FUN=min,na.rm=TRUE) df_trai

浏览 13提问于2019-10-15得票数 1

1回答

对于选定的列，如何使用sparklyr计算列平均值的缺失值？

、、、

对于sparklyr中的Spark数据帧，我知道使用na.replace(number)可以通过固定的数字来计算NA，我还知道我可以对硬编码的列执行na.replace(x=something)。如何为这些列中的所有缺失值插入均值？谢谢!

浏览 29提问于2018-06-07得票数 3

回答已采纳

1回答

如何使用数据库让dplyr::summarize_all在sparkdataframe上工作？

、、、

with R这本书中有一个加载小型r数据帧并在其上运行summarize_all的示例： cars <- copy_to(sc, mtcars)1 20.1 6.19 231. 147. 3.60 3.22 17.8 0.438 0.406 3

浏览 17提问于2020-09-24得票数 2

回答已采纳

2回答

R DBI Sparklyr DBWritetable正在运行，但没有结果

、、、、

我已经使用spark和R包sparklyr进行了连接，并且可以使用带有spark连接的R包DBI连接到我们的配置单元集群，并将数据提取到R数据帧中： sc <- spark_connect(master我还可以在DB中使用dbGetQuery在引用的sql语句的上下文中创建表，而不会出现问题，所以这不是写权限问题。但是，当我尝试将R帧中的数据写回配置单元集群

浏览 1提问于2017-09-01得票数 1

3回答

sparklyr将数据写入hdfs或配置单元

我尝试使用sparklyr将数据写入hdfs或hive，但无法找到方法。是否有可能使用sparklyr将R数据帧写入hdfs或hive？

浏览 16提问于2017-06-28得票数 6

1回答

is.na与火花分位数

、、

我正在使用sparklyr，它似乎运行得很好。但是，我以前的一些代码将不会实现。何时使用我得到了更重要的是，在Spark中，is.na的计算方法并不相同。is.na(V1) & is.na(V2)) 我得到一个空的dataframe，

浏览 5提问于2016-11-03得票数 0

1回答

删除闪烁栏中的NA列

、、、

我有一个有75列的数据表，其中12列有全部NA，有些列有70% NA，我想删除具有>=70% NA的列。df[,!apply( df , 2 , function(x) all(is.na(x)) ) df[is.na(df)) != nrow(df)]df[, colSums(is.na(

浏览 2提问于2017-03-23得票数 2

回答已采纳

2回答

函数将R类型转换为星点类型。

、、、、

我有一个R数据框架，我想把它转换成远程集群上的星火数据帧。我已经决定将我的数据框架写到一个中间的csv文件中，然后使用sparklyr::spark_read_csv()读取该文件。我这样做是因为数据帧太大，不能直接使用sparklyr::sdf_copy_to()发送(我认为这是由于Livy中的限制)。我想通过编写一个函数来编程地将数据帧中使用的R列类型传递到新

浏览 0提问于2019-03-28得票数 0

回答已采纳

1回答

使用SparkR创建的数据帧和使用Sparklyr创建的数据帧有什么区别？

、、、、

我正在Azure databricks中读取一个拼图文件:使用SparkR > read.parquet()使用Sparklyr > spark_read_parquet()这两个数据帧是不同的，有没有办法将SparkR数据帧转换为sparklyr数据帧，反之亦然？

浏览 11提问于2020-08-18得票数 0

回答已采纳

2回答

在Databricks中使用sparklyr收集表

、、、

在使用sparklyr进行所有操作之后，它被简化为1,880,573 rows和629 columns。当我尝试使用sdf_collect()为Factor Analysis收集它时，它给出了这个内存错误： Error : org.apache.spark.sql.execution.OutOfMemorySparkException: Total memory usage during row decode exceeds spark.driver.maxResultSize (4.0 GB).The average r

浏览 4提问于2020-09-30得票数 0

2回答

运行长度ID为sparklyr

、、

在测试时，我发现我所能做的最好的就是到达需要进行填充的点，但却无法做到这一点。library(sparklyr) sc <- spark_connect(master = "local",}) Database: spark connection master=local[4] app=sparklyr lo

浏览 0提问于2017-02-11得票数 1

回答已采纳

1回答

Sparklyr如何查看变量

、

我使用sparklyr读取这个json文件，并将其命名为"data“对象。首先，我将展示数据结构：data -b : stringdata %>% sdf_select(a) # Database: spark_connection <chr]>

浏览 9提问于2018-02-19得票数 1

1回答

数据库上的sql sparklyr sparkr数据帧转换

、、、

我使用以下代码在databricks上创建了sql表CREATE TABLE data OPTIONS (header "true", inferSchema "true") 下面的代码将该表分别转换为sparkr和r dataframe：library(SparkR)data_r_df

浏览 10提问于2018-07-25得票数 3

1回答

如何在R中用sparklyr做整数除法(mod)？

、、

在R中，整数除法运算符是%/%；但是，这在sparklyr创建的spark数据帧中不能正常工作。例如，以某种方式将20141025转换为201410.2。在小插曲中，sparklyr并没有说它支持%/%。那么应该如何使用sparklyr来完成整数除法呢目前我正在做floor(a / b)，但我想知道是否有一个简单的运算符。

浏览 0提问于2018-06-05得票数 1

1回答

sparklyr不能在单个值上筛选缺少的“z”值

、、、

将sd()应用于星火数据帧中的单个值(通过R中的sparklyr包)将导致一个缺失值，而该值不能被过滤掉，因为它是一个缺失值。下面的例子。library(sparklyr)#> * Using Spark: 2.1.0 #>

浏览 3提问于2017-12-19得票数 1

回答已采纳

1回答

R:检查其长度时tbl_spark中的下标越界

、、

我是R中的sparklyr库的新手，我开始使用library(nycflights13)，但每次尝试计算结果时，我的数据帧都会出现问题。下面是我正在做的事情： library(sparklyr)library(nycflights13) sc <- spark_connect(master =我检查了tally()函数，看它是否有问题，但是当我运行fly %>% summarize(delay = mean(dep_delay, <e

浏览 20提问于2020-11-23得票数 0

回答已采纳

1回答

java.lang.OutOfMemoryError中的Sparklyr配置结果

、

我在一个8核64 am内存的本地实例上运行带R的sparklyr。我的工作是使用[50 000 000, 12]数据帧对[20 000 000, 3]数据帧进行left_join，我和Spark一起运行。# Load packageslibrary(sparklyr) config" = "50g"

浏览 19提问于2021-09-06得票数 2

点击加载更多