文章/答案/技术大牛

发布

社区首页 >问答首页 >Sparklyr: sdf_copy_to失败，数据集为350 MB

问Sparklyr: sdf_copy_to失败，数据集为350 MB
EN

Stack Overflow用户

提问于 2017-05-31 07:14:32

回答 1查看 777关注 0票数 0

我在尝试使用sparklyr::spark_write_csv()编写2个数据集时遇到了一个问题。这是我的配置：

# Configure cluster
config <- spark_config()
config$spark.yarn.keytab <- "mykeytab.keytab"
config$spark.yarn.principal <- "myyarnprincipal"
config$sparklyr.gateway.start.timeout <- 10
config$spark.executor.instances <- 2
config$spark.executor.cores <- 4
config$spark.executor.memory <- "4G"
config$spark.driver.memory <- "4G"

config$spark.kryoserializer.buffer.max  <- "1G"

Sys.setenv(SPARK_HOME = "/opt/cloudera/parcels/CDH/lib/spark")
Sys.setenv(HADOOP_CONF_DIR = '/etc/hadoop/conf.cloudera.hdfs')
Sys.setenv(YARN_CONF_DIR = '/etc/hadoop/conf.cloudera.yarn')

# Configure cluster
sc <- spark_connect(master = "yarn-client", config = config, version = '1.6.0')

成功创建spark上下文后，我尝试使用spark_write_csv()在hdfs上保存两个数据集。作为中间步骤，我需要将数据帧转换为tbl_spark。不幸的是，我只能正确地保存第一个文件，而第二个文件(更大，但对于hadoop标准来说绝对不大，即360MB)花了很长时间，最后崩溃了。

# load datasets
tmp_small <- read.csv("first_one.csv", sep = "|") # 13 MB
tmp_big <- read.csv("second_one.csv", sep = "|") # 352 MB

tmp_small_Spark <- sdf_copy_to(sc, tmp_small, "tmp_small", memory = F, overwrite = T)
tables_preview <- dbGetQuery(sc, "SHOW TABLES")

tmp_big_Spark <- sdf_copy_to(sc, tmp_big, "tmp_big", memory = F, overwrite = T) # fail!!
tables_preview <- dbGetQuery(sc, "SHOW TABLES")

这可能是一个配置问题，但我不能弄清楚。这是错误：|================================================================================| 100% 352 MB

Error in invoke_method.spark_shell_connection(sc, TRUE, class, method,  : 
No status is returned. Spark R backend might have failed.

谢谢

hadoop

configuration

sparklyr

回答 1

Stack Overflow用户

发布于 2017-07-04 21:49:11

我在加载更大的文件时也遇到了问题。尝试将以下内容添加到spark连接配置文件中：

config$spark.rpc.message.maxSize <- 512

不过，这是一种变通方法。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44278085

复制

什么是sparklyr

spark https 网络安全 html 机器学习

我们（RStudio Team）今天很高兴的宣布一个新的项目sparklyr（https://spark.rstudio.com），它是一个包，用来实现通过R连接Apache Spark。

Fayson

2018/03/29

2.3K0

mysql uftb8mb4 储存 emoji 表情失败

云数据库 SQL Server 数据库 sql 压力测试编程算法

OK 没问题，设置 nick_name 为 utf8mb4 varchar(50)

用户2141593

2019/02/20

2.7K0

MySQL字符集utf8mb4

云数据库 SQL Server

Unicode是编码字符集，而UTF-8就是字符编码，即Unicode规则字库的一种实现形式。随着互联网的发展，对同一字库集的要求越来越迫切，Unicode标准也就自然而然的出现。它几乎涵盖了各个国家语言可能出现的符号和文字，并将为他们编号。

HLee

2021/07/23

1.6K0

100.00 MB以上大文件导致push失败解决方法

git

事情是这样的，三天前，老板说要聚餐，结果一开心，把白天学的资料一下子就朝仓库里放，

徐建国

2021/08/03

1.5K0

MySQL修改字符集utf8mb4

utf8 云数据库 SQL Server 数据库 sql 云推荐引擎

MySQL在 5.5.3 之后增加了 utf8mb4 字符编码，mb4即 most bytes 4。简单说 utf8mb4 是 utf8 的超集并完全兼容utf8，能够用四个字节存储更多的字符。

MySQL轻松学

2020/06/11

17.3K0

如何更改MySQL数据库的编码为utf8mb4

云数据库 SQL Server 数据库 utf8 sql 编程算法

utf8mb4编码是utf8编码的超集，兼容utf8，并且能存储4字节的表情字符。

用户4988085

2021/07/21

4.3K0

跟踪算法性能测试_VOT数据集为例

python 编程算法 matlab github

快要开始写毕业论文了，算法性能测试不可避免，今天要写的这些东西大部分是在年前弄完的，趁热记录一下。

和蔼的zhxing

2019/03/14

1.9K0

mysql为utf8mb4存储emoji表情

数据库存储 emoji mysql 编码

1. MySQL的版本 utf8mb4的最低mysql版本支持版本为5.5.3+，若不是，请升级到较新版本。 2.修改MySQL配置文件修改mysql配置文件my.cnf（windows为my.ini） my.cnf一般在etc/mysql/my.cnf位置。找到后请在以下三部分里添加如下内容： [client] default-character-set = utf8mb4 [mysql] default-character-set = utf8mb4 [mysqld] character-set-client-handshake = FALSE character-set-server = utf8mb4 collation-server = utf8mb4_unicode_ci init_connect='SET NAMES utf8mb4' 3. 重启数据库，检查变量 SHOW VARIABLES WHERE Variable_name LIKE 'character_set_%' OR Variable_name LIKE 'collation%'; Variable_name Value character_set_client utf8mb4 character_set_connection utf8mb4 character_set_database utf8mb4 character_set_filesystem binary character_set_results utf8mb4 character_set_server utf8mb4 character_set_system utf8 collation_connection utf8mb4_unicode_ci collation_database utf8mb4_unicode_ci collation_server utf8mb4_unicode_ci collation_connection 、collation_database 、collation_server是什么没关系。但必须保证这几个变量必须是utf8mb4。系统变量描述 character_set_client (客户端来源数据使用的字符集) character_set_connection (连接层字符集) character_set_database (当前选中数据库的默认字符集) character_set_results (查询结果字符集) character_set_server (默认的内部操作字符集) ———————————————————— 到这里为止，上面都是服务器环境方面配置调整 ———————————————————— 4. 将数据库、表、列三个同时也转换成utf8mb4 更改数据库编码：ALTER DATAbase alfredsw CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci; 更改表编码：ALTER TABLE TABLE_NAME CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci; 更改列编码：在需要存储的字段进行更改 [注意：数据库和表编码可以不更改，不影响使用] 5、服务器连接排序规则：utf8mb4_general_ci 6、最关键的，thinkphp5的配置要修改 'charset' =>'utf8mb4',// 数据库编码默认采用utf8

零云

2023/07/24

3310

数据集 | 2023 bilibili 视频弹幕数据集，以「木鱼水心」解说视频为例

爬虫工具视频数据推送

今天分享的是 b 站弹幕数据集，使用 b 站弹幕爬虫，抓取 b 站著名百大 up 主「木鱼水心」关于三国演义、水浒传、红楼梦这些四大名著最火的几个视频的弹幕列表。

月小水长

2023/07/03

5950

数据集 | 2023 bilibili 视频弹幕数据集，以「木鱼水心」解说视频为例

如何更改MySQL数据库的编码为utf8mb4编码

云数据库 SQL Server 数据库 utf8 sql 编程算法

utf8mb4编码是utf8编码的超集，兼容utf8，并且能存储4字节的表情字符。

用户1685462

2021/07/30

2.3K0

Sparklyr与Docker的推荐系统实战

容器镜像服务 spark 数据分析 windows 大数据

作者：Harry Zhu 链接：https://zhuanlan.zhihu.com/p/21574497 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。相关内容：

悟乙己

2019/05/26

7420

以母婴数据集为例进行电商数据分析

数据分析

根据上面第一步的问题，需要用到的字段有：用户ID、商品类别、购买数量、购买时间、那么，其它字段可以设置为隐藏。（注意：为了保证数据的完整性，千万不要删除数据！不需要的数据隐藏即可）。把表1里不需要的字段：auction_id:购买行为编号、property:商品属性隐藏起来：表2的所有字段保留。

开心鸭

2020/10/26

1.8K0

区别MB1A MB1B MB1C MB11 MIGO

事务

库存管理模块，MB1A MB1B MB1CMB11 MIGO事务代码可以用作生成收货、发货、转储等物料凭证，经常分不清用哪个事务代码最合适，现在对他们的区别说明一下。

用户5495712

2020/06/10

1.5K0

loadlibrary 失败 java_LoadLibrary失败，错误代码为14001

云数据库 Redis®打包 java https

我正在使用Visual C 2008 Express Edition来创建仅限资源的DLL . 我面临的问题是运行在除了我的另一台计算机上使用DLL的应用程序导致LoadLibrary()函数失败，错误代码为14001 .

全栈程序员站长

2022/09/14

7520

Hadoop离线数据分析平台实战——350公用代码重构Hadoop离线数据分析平台实战——350公用代码重构

hadoop 数据分析

Hadoop离线数据分析平台实战——350公用代码重构项目进度模块名称完成情况用户基本信息分析(MR)� 完成浏览器信息分析(MR) 完成地域信息分析(MR) 未完成外链信息分析(MR) 未完成用户浏览深度分析(Hive) 未完成订单分析(Hive) 未完成事件分析(Hive) 未完成 MR程序公用代码重构公用代码主要包括： Runner类中的参数处理代码，以及hbase的scan对象创建相关代码公用。 Mapper类中获取hbase的val

Albert陈凯

2018/04/08

8420

ASEMI整流桥MB10F参数，MB10F特征，MB10F机械数据

java https 网络安全硬件开发

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/155360.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/06

8540

Lyft为自动驾驶汽车开发人员开源L5数据集，为同类中最大的公开数据集

自动驾驶无人驾驶图像处理开源腾讯云测试服务

为了促进自动驾驶汽车的发展，Lyft今天开源了自动驾驶汽车数据集，该公司称这是同类中最大的公开数据集。

AiTechYun

2019/07/30

7900

数据集 | 图书数据集

电商登录数据搜索

下载数据集请登录爱数科(www.idatascience.cn) 由电商平台爬取的图书信息，包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源当当网搜索页面爬取。

数据科学人工智能

2022/03/30

2.2K0

数据集 | 鲍鱼数据集

division

通过物理测量预测鲍鱼的年龄。鲍鱼的年龄是通过将蛋壳切成圆锥形，对其进行染色并通过显微镜对其进行计数来确定的，这是一项无聊且耗时的工作。其他更容易获得的测量值可用于预测年龄。解决此问题可能需要更多信息，例如天气模式和位置（因此有无食物）。从原始数据中删除了缺失值的样本，并且对连续值的范围进行了缩放。数据集共4177个样本，8个字段

数据科学人工智能

2022/03/30

2.3K0

点击加载更多

相似问题

dplyr::copy_to和sparklyr::sdf_copy_to有什么区别？

153

Sparklyr copy_to失败

大小为350MB的iOS应用程序出现内存不足警告

当接收字节数组超过350 MB时，WCF客户端失败

123

通过sparklyr替换火花数据中的“\”或“\\”失败

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

社区富文本编辑器全新改版！诚邀体验～

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

问Sparklyr: sdf_copy_to失败，数据集为350 MB
EN

回答 1

Stack Overflow用户

dplyr::copy_to和sparklyr::sdf_copy_to有什么区别？

Sparklyr copy_to失败

大小为350MB的iOS应用程序出现内存不足警告

当接收字节数组超过350 MB时，WCF客户端失败

通过sparklyr替换火花数据中的“\”或“\\”失败

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Sparklyr: sdf_copy_to失败，数据集为350 MBEN

回答 1

Stack Overflow用户

dplyr::copy_to和sparklyr::sdf_copy_to有什么区别？

Sparklyr copy_to失败

大小为350MB的iOS应用程序出现内存不足警告

当接收字节数组超过350 MB时，WCF客户端失败

通过sparklyr替换火花数据中的“\”或“\\”失败

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Sparklyr: sdf_copy_to失败，数据集为350 MB
EN