spark_read_csv的Sparklyr维度问题: NA结果_R/PowerBI API问题:当源数据帧结构不一致时，如何为结果数据帧中缺失的列分配NA - 腾讯云开发者社区

r、apache-spark、sparklyr

当我使用spark_read_csv在Spark环境中打开一个dataset (.csv)并询问相关tibble对象的尺寸时，结果显示的不是行数，而是NA。打开csv文件时缺少什么？以下是我得到的结果： data = spark_read_csv( header =TR

浏览 13提问于2019-02-08得票数 1

回答已采纳

1回答

使用SparkR的Sparklyr :解析函数参数的困难

r、sparkr、sparklyr

我正在运行Sparklyr和SparkR。当我试图使用由schema()创建的数据表调用spark_read_csv()函数时，会收到以下错误(以及select()和lapply()函数上的类似错误)：平台:x86_64-W64-mingw32 32("SPARK

浏览 1提问于2019-04-14得票数 0

1回答

用sparklyr将字符串在R中转换为逻辑字符串

r、apache-spark、sparklyr

我将1亿行存储在分布式文件系统中的许多.csv文件中。我使用spark_read_csv()在没有问题的情况下加载数据。我的许多列存储为字符逻辑值："true"、"false"、"<na>"。当我尝试将值转换为逻辑值时，"<na>"值与"false"值一起转换为"false"值。对如何克服这个问题有什么想法吗？

浏览 2提问于2017-11-28得票数 4

回答已采纳

3回答

R:读csv数字和逗号在十进制，包火花

r、apache-spark、sparklyr

我需要使用库"sparklyr“读取".csv”类型的文件，其中数字值以逗号显示。其思想是能够直接使用"spark_read_csv()“进行阅读。我正在使用：library(dplyr) DD=c("33,2","33.2(master = "local&quo

浏览 1提问于2018-12-27得票数 1

回答已采纳

2回答

Sparklyr连接到S3桶抛出错误

r、apache-spark、amazon-s3、sparklyr

我能够读取本地文件的火花上下文。然而，试图连接s3似乎是一个问题，抛出大量错误。下面是使用的代码列表。library( tidyverse ) temp<-

浏览 2提问于2017-07-19得票数 3

回答已采纳

1回答

导入多个文件的sparklyr

r、apache-spark、sparklyr

我的问题spark_read_csv(path=x, sc=sc, name="mydata", delimiter = "|", header=FALSE) 如果我要将它们全部导入sparklyr所以我的问题是:在斯巴克里尔有一种同样的方法来做到这

浏览 0提问于2018-03-31得票数 5

回答已采纳

1回答

闪烁:跳过文本文件的第一行

r、csv、apache-spark、sparklyr

我想跳过(删除)文本文件的前两行:据我所知，使用sparklyr方法spark_read_csv是不可能的。有办法解决这个简单的问题吗？我知道的存在，但我正在寻找一种“更多”的标准方法来实现我的目标。

浏览 6提问于2016-10-21得票数 4

回答已采纳

1回答

R:如何合并使用spark_read_csv加载的两个文件

r、apache-spark、sparklyr

我正在以这种方式处理用spark_read_csv加载的数据：connection <- spark_connect(master = 'local')在处理完这些数据之后，我意识到我需要将它与另一个文件组合在一起。第二个文件与第一个文件具有相同的变量和特征，我想用相同的方法spark

浏览 0提问于2019-10-31得票数 0

2回答

从sparklyr中的多个子文件夹读取文件

r、sparklyr

在Spark2.0中，我可以将多个文件路径组合成一个单独的加载(例如参见)。我如何使用sparklyr的spark-read-csv来实现这一点？

浏览 0提问于2017-10-27得票数 4

2回答

读取csv函数时出错

r、sparklyr

在google计算集群中，我正在尝试使用sparklyr包将csv文件读取到strudio中。配置如下：install.packages("sparklyr") spark_installspark_config() sc <- spark_connect(master = "yarn-client", config=config ,version = &q

浏览 1提问于2017-04-05得票数 0

1回答

使用spraklyr::spark_read_csv将数据读入星火库时出错

r、apache-spark、sparklyr

我正在使用R连接到sparklyr的Spark，我可以做一些事情，例如，使用sparklyr::copy_to将数据加载到Spark中。但是，我无法让sparklyr::spark_read_csv工作。我试图加载的数据位于容器中映射的本地目录中。下面是我使用的代码的一个示例： sc, pat

浏览 5提问于2022-06-13得票数 0

1回答

为什么我需要在spark_read_csv()中指定一个名称，并将其分配到一个对象中？

r、apache-spark、dry、sparklyr

如果我正确理解了用法(如果不是，请纠正我)，sparklyr::spark_read_csv()应该这样使用：name = "my_table", 在我看来(我认为是错误的)这违反了DRY。我为我的对象命名了两次，一次是在函数输出的赋值中，另一次是在提供给nam

浏览 5提问于2017-08-07得票数 1

回答已采纳

1回答

Sparklyr:如何在星火表中将列表列炸成自己的列？

r、apache-spark、dplyr、tidyr、sparklyr

我的问题类似于中的问题，但是我在实现答案时遇到了问题，我不能在这个线程中发表评论。 df = spark_read_c

浏览 2提问于2017-04-24得票数 2

回答已采纳

2回答

使用sparklyr对大数据进行滚动应用

r、dplyr、sparklyr、rollapply、performanceanalytics

我想要为大约2250万个观察值的数据集估计滚动风险值，因此我想使用sparklyr进行快速计算。下面是我所做的(使用示例数据库)：library(reshape2)data现在我这样做是为了利用sparklyr：sc <- spark_connect(master = "local") lmanagers_sp <

浏览 0提问于2017-09-03得票数 9

1回答

我有一个很大的data.frame，并且我一直在结合使用summarise和across来聚合大量变量的汇总统计信息。由于我的data.frame太大，我不得不开始在sparklyr中处理我的数据。因为sparklyr不支持across，所以我使用summarise_each。这一切正常，只是sparklyr中的summarise_each似乎不支持sd和sum(!is.na(.))时，我成功地计算出了min、max、mean、su

浏览 17提问于2020-10-20得票数 1

回答已采纳

1回答

is.na与火花分位数

r、dplyr、sparklyr

我正在使用sparklyr，它似乎运行得很好。但是，我以前的一些代码将不会实现。complete.cases 我得到一个空的</e

浏览 5提问于2016-11-03得票数 0

2回答

Sparklyr用字符串填充

r、sparklyr

我想在sparklyr数据帧上填充值(用以前的值替换NAs )，该字段保存字符串。我想改变这一点： ID, String2 NaN4 NaN 要这样做： ID, String2 a4 b 有没有办法在sparklyr

浏览 29提问于2019-01-18得票数 2

2回答

有人知道我如何处理R中的大数据吗？

r、apache-spark-sql、bigdata、tidytext

分析RStudio中的tweet：我的csv文件包含4,000,000条tweet，包含5列: screen_name、text、created_at、favorite_count和retweet_count我试图使用以下代码来识别哈希标签的频率，但是它运行得太慢了好几天，有时还会导致RStudio崩溃。在Spark中，我执行以下操作，但是RStudio无法将我的数据集复制到Spark。我看到“星火正在运行”在我的RStudio中甚至有一天没有复制我的数据集到星火。, my_datab

浏览 5提问于2020-03-29得票数 3

1回答

如何将对象从S3桶加载到RStudio中的星火中？

r、apache-spark、amazon-s3、sparklyr、s3-bucket

S3桶中的对象大小为5.3GB。为了将对象转换为数据，我使用了get_object("link to bucket path")。但这会导致记忆问题。因此，我在RStudio中安装了Spark2.3.0，并试图将该对象直接加载到Spark中，但是直接将对象加载到Spark中的命令不为人所知。library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") 如果我将对象转换为可读的数据类

浏览 2提问于2018-07-30得票数 0

回答已采纳

1回答

基于sparklyr和标准评估(SE)的函数

apache-spark、dplyr、sparklyr、non-standard-evaluation、standard-evaluation

我正在尝试编写一个函数来执行并创建一个sdf_pivot() DataFrame，它的列名包含原始变量或列的名称。的预期结果： dplyr::select(id, var1) %>% sparklyr::sdf_pivot(formula = id ~ newvar1, fun.aggregate = "count")

浏览 5提问于2018-02-13得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云