Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >Sparklyr: sdf_copy_to失败,数据集为350 MB

Sparklyr: sdf_copy_to失败,数据集为350 MB
EN

Stack Overflow用户
提问于 2017-05-31 07:14:32
回答 1查看 777关注 0票数 0

我在尝试使用sparklyr::spark_write_csv()编写2个数据集时遇到了一个问题。这是我的配置:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Configure cluster
config <- spark_config()
config$spark.yarn.keytab <- "mykeytab.keytab"
config$spark.yarn.principal <- "myyarnprincipal"
config$sparklyr.gateway.start.timeout <- 10
config$spark.executor.instances <- 2
config$spark.executor.cores <- 4
config$spark.executor.memory <- "4G"
config$spark.driver.memory <- "4G"

config$spark.kryoserializer.buffer.max  <- "1G"

Sys.setenv(SPARK_HOME = "/opt/cloudera/parcels/CDH/lib/spark")
Sys.setenv(HADOOP_CONF_DIR = '/etc/hadoop/conf.cloudera.hdfs')
Sys.setenv(YARN_CONF_DIR = '/etc/hadoop/conf.cloudera.yarn')

# Configure cluster
sc <- spark_connect(master = "yarn-client", config = config, version = '1.6.0')

成功创建spark上下文后,我尝试使用spark_write_csv()在hdfs上保存两个数据集。作为中间步骤,我需要将数据帧转换为tbl_spark。不幸的是,我只能正确地保存第一个文件,而第二个文件(更大,但对于hadoop标准来说绝对不大,即360MB)花了很长时间,最后崩溃了。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# load datasets
tmp_small <- read.csv("first_one.csv", sep = "|") # 13 MB
tmp_big <- read.csv("second_one.csv", sep = "|") # 352 MB

tmp_small_Spark <- sdf_copy_to(sc, tmp_small, "tmp_small", memory = F, overwrite = T)
tables_preview <- dbGetQuery(sc, "SHOW TABLES")

tmp_big_Spark <- sdf_copy_to(sc, tmp_big, "tmp_big", memory = F, overwrite = T) # fail!!
tables_preview <- dbGetQuery(sc, "SHOW TABLES") 

这可能是一个配置问题,但我不能弄清楚。这是错误:|================================================================================| 100% 352 MB

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Error in invoke_method.spark_shell_connection(sc, TRUE, class, method,  : 
No status is returned. Spark R backend might have failed.

谢谢

EN

回答 1

Stack Overflow用户

发布于 2017-07-04 21:49:11

我在加载更大的文件时也遇到了问题。尝试将以下内容添加到spark连接配置文件中:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
config$spark.rpc.message.maxSize <- 512

不过,这是一种变通方法。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44278085

复制
相关文章
什么是sparklyr
我们(RStudio Team)今天很高兴的宣布一个新的项目sparklyr(https://spark.rstudio.com),它是一个包,用来实现通过R连接Apache Spark。
Fayson
2018/03/29
2.3K0
什么是sparklyr
mysql uftb8mb4 储存 emoji 表情失败
OK 没问题,设置 nick_name 为 utf8mb4 varchar(50)
用户2141593
2019/02/20
2.7K0
MySQL字符集utf8mb4
Unicode是编码字符集,而UTF-8就是字符编码,即Unicode规则字库的一种实现形式。随着互联网的发展,对同一字库集的要求越来越迫切,Unicode标准也就自然而然的出现。它几乎涵盖了各个国家语言可能出现的符号和文字,并将为他们编号。
HLee
2021/07/23
1.6K0
MySQL字符集utf8mb4
100.00 MB以上大文件导致push失败解决方法
事情是这样的,三天前,老板说要聚餐,结果一开心,把白天学的资料一下子就朝仓库里放,
徐建国
2021/08/03
1.5K0
100.00 MB以上大文件导致push失败解决方法
MySQL修改字符集utf8mb4
MySQL在 5.5.3 之后增加了 utf8mb4 字符编码,mb4即 most bytes 4。简单说 utf8mb4 是 utf8 的超集并完全兼容utf8,能够用四个字节存储更多的字符。
MySQL轻松学
2020/06/11
17.3K0
如何更改MySQL数据库的编码为utf8mb4
utf8mb4编码是utf8编码的超集,兼容utf8,并且能存储4字节的表情字符。
用户4988085
2021/07/21
4.3K0
跟踪算法性能测试_VOT数据集为例
快要开始写毕业论文了,算法性能测试不可避免,今天要写的这些东西大部分是在年前弄完的,趁热记录一下。
和蔼的zhxing
2019/03/14
1.9K0
mysql为utf8mb4存储emoji表情
1. MySQL的版本 utf8mb4的最低mysql版本支持版本为5.5.3+,若不是,请升级到较新版本。 2.修改MySQL配置文件 修改mysql配置文件my.cnf(windows为my.ini)  my.cnf一般在etc/mysql/my.cnf位置。找到后请在以下三部分里添加如下内容:  [client]  default-character-set = utf8mb4  [mysql]  default-character-set = utf8mb4  [mysqld]  character-set-client-handshake = FALSE  character-set-server = utf8mb4  collation-server = utf8mb4_unicode_ci  init_connect='SET NAMES utf8mb4' 3. 重启数据库,检查变量 SHOW VARIABLES WHERE Variable_name LIKE 'character_set_%' OR Variable_name LIKE 'collation%'; Variable_name Value character_set_client utf8mb4 character_set_connection utf8mb4 character_set_database utf8mb4 character_set_filesystem binary character_set_results utf8mb4 character_set_server utf8mb4 character_set_system utf8 collation_connection utf8mb4_unicode_ci collation_database utf8mb4_unicode_ci collation_server utf8mb4_unicode_ci collation_connection 、collation_database 、collation_server是什么没关系。 但必须保证这几个变量必须是utf8mb4。 系统变量 描述 character_set_client (客户端来源数据使用的字符集) character_set_connection (连接层字符集) character_set_database (当前选中数据库的默认字符集) character_set_results (查询结果字符集) character_set_server (默认的内部操作字符集) ———————————————————— 到这里为止,上面都是服务器环境方面配置调整 ———————————————————— 4. 将数据库、表、列三个同时也转换成utf8mb4 更改数据库编码:ALTER DATAbase alfredsw CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci; 更改表编码:ALTER TABLE TABLE_NAME CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;  更改列编码:在需要存储的字段进行更改 [注意:数据库和表编码可以不更改,不影响使用] 5、服务器连接排序规则:utf8mb4_general_ci 6、最关键的,thinkphp5的配置要修改 'charset' =>'utf8mb4',// 数据库编码默认采用utf8
零云
2023/07/24
3310
数据集 | 2023 bilibili 视频弹幕数据集,以「木鱼水心」解说视频为例
今天分享的是 b 站弹幕数据集,使用 b 站弹幕爬虫,抓取 b 站著名百大 up 主「木鱼水心」关于三国演义、水浒传、红楼梦这些四大名著最火的几个视频的弹幕列表。
月小水长
2023/07/03
5950
数据集 | 2023 bilibili 视频弹幕数据集,以「木鱼水心」解说视频为例
如何更改MySQL数据库的编码为utf8mb4编码
utf8mb4编码是utf8编码的超集,兼容utf8,并且能存储4字节的表情字符。
用户1685462
2021/07/30
2.3K0
Sparklyr与Docker的推荐系统实战
作者:Harry Zhu 链接:https://zhuanlan.zhihu.com/p/21574497 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 相关内容:
悟乙己
2019/05/26
7420
以母婴数据集为例进行电商数据分析
根据上面第一步的问题,需要用到的字段有:用户ID、商品类别、购买数量、购买时间、那么,其它字段可以设置为隐藏。(注意:为了保证数据的完整性,千万不要删除数据!不需要的数据隐藏即可)。把表1里不需要的字段:auction_id:购买行为编号、property:商品属性隐藏起来:表2的所有字段保留。
开心鸭
2020/10/26
1.8K0
以母婴数据集为例进行电商数据分析
区别MB1A MB1B MB1C MB11 MIGO
库存管理模块,MB1A MB1B MB1CMB11 MIGO事务代码可以用作生成收货、发货、转储等物料凭证,经常分不清用哪个事务代码最合适,现在对他们的区别说明一下。
用户5495712
2020/06/10
1.5K0
loadlibrary 失败 java_LoadLibrary失败,错误代码为14001
我正在使用Visual C 2008 Express Edition来创建仅限资源的DLL . 我面临的问题是运行在除了我的另一台计算机上使用DLL的应用程序导致LoadLibrary()函数失败,错误代码为14001 .
全栈程序员站长
2022/09/14
7520
Hadoop离线数据分析平台实战——350公用代码重构Hadoop离线数据分析平台实战——350公用代码重构
Hadoop离线数据分析平台实战——350公用代码重构 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 MR程序公用代码重构 公用代码主要包括: Runner类中的参数处理代码,以及hbase的scan对象创建相关代码公用。 Mapper类中获取hbase的val
Albert陈凯
2018/04/08
8420
ASEMI整流桥MB10F参数,MB10F特征,MB10F机械数据
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/155360.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/06
8540
ASEMI整流桥MB10F参数,MB10F特征,MB10F机械数据
Lyft为自动驾驶汽车开发人员开源L5数据集,为同类中最大的公开数据集
为了促进自动驾驶汽车的发展,Lyft今天开源了自动驾驶汽车数据集,该公司称这是同类中最大的公开数据集。
AiTechYun
2019/07/30
7900
Lyft为自动驾驶汽车开发人员开源L5数据集,为同类中最大的公开数据集
数据集 | 图书数据集
下载数据集请登录爱数科(www.idatascience.cn) 由电商平台爬取的图书信息,包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 当当网搜索页面爬取。
数据科学人工智能
2022/03/30
2.2K0
数据集 | 图书数据集
数据集 | 鲍鱼数据集
通过物理测量预测鲍鱼的年龄。鲍鱼的年龄是通过将蛋壳切成圆锥形,对其进行染色并通过显微镜对其进行计数来确定的,这是一项无聊且耗时的工作。其他更容易获得的测量值可用于预测年龄。解决此问题可能需要更多信息,例如天气模式和位置(因此有无食物)。从原始数据中删除了缺失值的样本,并且对连续值的范围进行了缩放。数据集共4177个样本,8个字段
数据科学人工智能
2022/03/30
2.3K0
数据集 | 鲍鱼数据集
点击加载更多

相似问题

dplyr::copy_to和sparklyr::sdf_copy_to有什么区别?

153

Sparklyr copy_to失败

12

大小为350MB的iOS应用程序出现内存不足警告

13

当接收字节数组超过350 MB时,WCF客户端失败

123

通过sparklyr替换火花数据中的“\”或“\\”失败

11
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文