腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4606)
视频
沙龙
1
回答
Spark
中大
表
上
的
sparklyr
sdf_collect
和
dplyr
collect
函数
需要
很长
时间
才能
运行
?
r
、
apache-spark
、
dplyr
、
tidyverse
、
sparklyr
我正在
运行
R Studio
和
R 3.5.2。 我已经使用来自S3a
的
sparklyr
::
spark
_read_parquet加载了大约250个parquet文件。我
需要
从
Spark
(由
sparklyr
安装)收集数据:
spark
_install(version = "2.3.2", hadoop_version = "2.7") 但由于某些原因,这项工作
需要
很长</e
浏览 39
提问于2019-01-28
得票数 1
回答已采纳
2
回答
在Databricks中使用
sparklyr
收集
表
r
、
parquet
、
databricks
、
sparklyr
我有一个大约有5 billion rows
的
parquet
表
。在使用
sparklyr
进行所有操作之后,它被简化为1,880,573 rows
和
629 columns。当我尝试使用
sdf_collect
()为Factor Analysis收集它时,它给出了这个内存错误: Error : org.apache.
spark
.sql.execution.OutOfMemorySparkException: Total memory usage during row decode exceeds
浏览 4
提问于2020-09-30
得票数 0
1
回答
Spark
/Databricks:在R中收集()大型数据集
r
、
apache-spark
、
databricks
问题:我可以在大约2分钟内使用python (pyspark)对数据进行
collect
()。但是,当我试图使用
sparklyr
在R中收集相同
的
数据集时,该命令在大约2.5天后仍在
运行
。我不能首先将数据集加载到DBFS中,因为我们
需要
比DBFS所允许
的
更严格
的
数据访问控制。下面是我在
collect
()
和
R中
运行
的
单元格
的
屏幕截图。对于上下文,我使用
的
是
sdf
浏览 8
提问于2022-10-31
得票数 1
1
回答
通过火花导入卡桑德拉
表
到火花-可能只选择一些列?
r
、
apache-spark
、
cassandra
、
cql
、
sparklyr
我一直在与
sparklyr
合作,使大型卡桑德拉
表
产生火花,向R注册这些
表
,并对它们进行
dplyr
操作。我已经成功地导入了cassandra
表
,代码如下: cass_df <-
sparklyr
:::
spark
_data_read_genericsc, cass_df, name = "cass_table", repartition = 0, memor
浏览 3
提问于2017-03-02
得票数 3
回答已采纳
1
回答
如何用mclapply重用
sparklyr
上下文?
r
、
apache-spark
、
parallel-processing
、
sparklyr
我有一个R代码,它在
sparklyr
中进行一些分布式数据预处理,然后将数据收集到R本地数据帧中,最后将结果保存在CSV中。一切都按预期
运行
,现在我计划在多个输入文件处理过程中重用
spark
上下文。我
的
代码看起来类似于这个可重现
的
示例:library(
sparklyr
) # Generatesummarise(n=n(
浏览 24
提问于2020-02-16
得票数 0
回答已采纳
2
回答
为什么SparkR中
的
collect
速度如此之慢?
r
、
apache-spark
、
sparkr
我使用
的
是
spark
2.0.0
和
Spark
(RStudio
和
R 3.3.1)中
的
SparkR包,它们都
运行
在具有4核
和
8 8gb内存
的
本地机器
上
。为了便于构建我可以在R中处理
的
数据集,我使用
collect
()方法将
spark
DataFrame引入R中。这样做
需要
大约3分钟,这比使用data.table包读取相同大小
的
CSV
浏览 9
提问于2016-09-19
得票数 8
7
回答
SparkR vs
sparklyr
r
、
apache-spark
、
sparkr
、
sparklyr
有没有人概述一下SparkR
和
sparklyr
的
优缺点?谷歌没有产生任何令人满意
的
结果,两者似乎相当相似。尝试这两种方式,SparkR看起来要麻烦得多,而
sparklyr
非常简单(既要安装,也要使用,特别是在使用
dplyr
输入时)。
sparklyr
只能用于并行
运行
dplyr
函数
,还是“普通”
的
R-Code? 最好
的
浏览 0
提问于2016-09-14
得票数 53
1
回答
EMA
函数
在R数据帧上有效,但在
spark
数据帧
上
失败-
Sparklyr
apache-spark
、
databricks
、
sparklyr
我对R
和
Spark
都是新手。我正在编写一个
函数
来计算一组数据
的
指数移动平均值。我正在使用
sparklyr
包在Databricks
Spark
平台上工作。我目前对这些值
的
正确性不感兴趣(我使用
的
是虚拟值-例如。init = 10是任意
的
)。我更感兴趣
的
是让它在
Spark
浏览 25
提问于2019-11-08
得票数 1
回答已采纳
2
回答
使用筛选器或从火花中选择后
的
数据示例
r
、
filter
、
sample
、
sparklyr
我
需要
分析大量
的
数据,所以我使用
sparklyr
来快速管理它。我
的
目标是获取数据
的
样本,但在
需要
选择感兴趣
的
变量
和
筛选某些列
的
值之前。我尝试选择
和
/或过滤数据,然后使用
函数
sample_n,但它总是给出以下错误: 以下是这种行为
的
浏览 3
提问于2018-02-08
得票数 1
回答已采纳
1
回答
将SparkR DataFrame序列化为jobj
r
、
apache-spark
、
cassandra
、
sparkr
、
sparklyr
例如,使用
sparklyr
扩展,我可以这样做:
sparklyr
然而,对于我
的
用例,我希望能够使用SparkR::
spark
.lapply,这样我就可以在本地收集我
的
Cassandra
表
的
子集,在它们
上
运
浏览 7
提问于2017-01-22
得票数 0
回答已采纳
1
回答
闪速
spark
_apply非常慢
apache-spark
、
sparklyr
sparklyr
spark
_apply非常慢/根本没有响应。当签入
spark
时,正在执行
的
阶段是在utils.scala:204
上
收集。它正在执行0/1(1正在
运行
)任务。应用
spark
_apply
的
数据帧有30个分区。这个任务没有进展,也没有执行单个任务
的
原因。library(
sparklyr
)config=
spark
_con
浏览 0
提问于2019-04-25
得票数 1
回答已采纳
1
回答
当与sample_n一起使用时,
sparklyr
真的是一个随机样本吗?
r
、
apache-spark
、
random
、
dplyr
、
sparklyr
我在一个
spark
数据帧中有5亿行。我对在
dplyr
中使用sample_n很感兴趣,因为它允许我显式地指定我想要
的
样本大小。如果我要使用
sparklyr
::sdf_sample(),我首先必须计算sdf_nrow(),然后创建数据sample_size / nrow
的
指定部分,然后将此部分传递给sdf_sample。这不是什么大问题,但sdf_nrow()可能
需要
一段
时间
才能
完成。 因此,最好是直接使用
dplyr
::samp
浏览 2
提问于2018-07-24
得票数 10
回答已采纳
2
回答
星火代码
需要
很长
时间
才能
返回查询。帮助加快速度
apache-spark
、
hive
、
beeline
我目前正在
运行
一些火花代码,我
需要
查询一个数据框架,这是一个
很长
的
时间
(超过1小时)每次查询。我
需要
多次查询以检查数据框架是否实际
上
是正确
的
。我对
Spark
还比较陌生,我知道
Spark
使用了惰性评估,这意味着只有在我调用某个操作(在我
的
例子中是.show())时,命令才会被执行。 有没有办法对整个DF执行一次此过程,然后快速调用数据?目前,我正在将DF保存为一个临时
表
,然后直接<e
浏览 0
提问于2018-03-12
得票数 1
2
回答
使用
Sparklyr
连接两个不同数据库
的
表
r
、
sparklyr
这是我在调用
Sparklyr
会话之后的当前方式:我遇到
的
错误: "Error: org.ap
浏览 0
提问于2017-05-22
得票数 3
3
回答
是否可以在
dplyr
中执行完全连接并保留联接中使用
的
所有列?
r
、
dplyr
、
sparklyr
我有两个
表
,我想使用
dplyr
完成一个完整
的
连接,但我不希望它删除任何列。根据文档和我自己
的
经验,它只保留左侧
的
联接列。这是一个问题,当您有一个记录右侧
的
行,因为连接值已经消失。例如,假设我有两个
表
a
和
b,-----------|---------我用
的
是火花,所以这都是在火花里
运行
的
。因此
浏览 4
提问于2017-05-05
得票数 5
回答已采纳
2
回答
从星团中收集数据时内存不足
的
错误
apache-spark
、
memory
、
sparklyr
,然后cache
表
来激发内存时,它占用了<2GB
的
内存--比我
的
集群可用
的
内存还小--然后当我试图将数据
collect
到驱动程序节点时,我会得到一个OOM错误。我尝试过在以下设置
上
运行
: 对于其中
的
每一个,我都使用了许多executor.
浏览 7
提问于2017-08-25
得票数 20
1
回答
在RStudio中,我能像正常
的
R数据格式一样在图形用户界面中可视化预览吗?
r
、
apache-spark
、
user-interface
、
rstudio
、
sparklyr
背景 看到这样
的
东西:
浏览 0
提问于2021-08-12
得票数 1
回答已采纳
1
回答
在
Sparklyr
中创建新
的
Spark
表
或数据框最有效
的
方法是什么?
hadoop
、
apache-spark
、
hive
、
dplyr
、
sparklyr
在Hadoop集群(而不是VM)
上
使用
sparklyr
包,我正在处理几种类型
的
表
,这些
表
需要
连接、过滤等。我正在尝试确定使用
dplyr
命令
和
sparklyr
中
的
数据管理
函数
来
运行
处理,将其存储在缓存中,并使用中间数据对象来生成保留在缓存中
的
下游对象
的
最有效方法。我想从2016年
的
数据开始,合并姓名
和
当前地址<e
浏览 15
提问于2017-06-24
得票数 4
回答已采纳
2
回答
有人知道我如何处理R中
的
大数据吗?
r
、
apache-spark-sql
、
bigdata
、
tidytext
分析RStudio中
的
tweet: 我
的
csv文件包含4,000,000条tweet,包含5列: screen_name、text、created_at、favorite_count
和
retweet_count我试图使用以下代码来识别哈希标签
的
频率,但是它
运行
得太慢了好几天,有时还会导致RStudio崩溃。,例如:或,以及
Spark
:。在
Spark
中,我执行以下操作,但是RStudio无法将我
的
数据集复制到
Spark
。我看到“星火正在
浏览 5
提问于2020-03-29
得票数 3
2
回答
在R
和
Sparklyr
中,向.CSV (
spark
_write_csv)写入
表
会产生许多文件,而不是一个文件。为什么?我能改变吗?
r
、
csv
、
apache-spark
、
dplyr
、
sparklyr
背景下面是用于将.csv文件输出到硬盘驱动器
上
的
浏览 0
提问于2021-08-10
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
Spark入门-常用函数汇总
如何将 Python 数据管道的速度提高到 91 倍?
到2025年,这些优秀技术的地位仍将保持不变
Spark之SparkSQL
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券