腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1098)
视频
沙龙
1
回答
尝试
通过
Java
SDK
将
记录
从
Spark
DataFrame
写入
Dynamodb
时
,
任务
不可
序列化
、
、
、
、
(new AWSStaticCredentialsProvider(new BasicAWSCredentials("access_key", "secret_key"))).build()val table =
dynamoDB
.getTable("tbl_name") ""
浏览 4
提问于2017-08-01
得票数 1
3
回答
Spark
:
写入
Avro文件
、
、
、
我在
Spark
,我有一个来自Avro文件的RDD。org.apache.hadoop.io.NullWritable], job.getConfiguration) 在运行此
Spark
时
,
Spark
会报告Schema$recordSchema
不可
序列化
。
浏览 1
提问于2013-12-16
得票数 17
1
回答
Spark
任务
不可
序列化
、
、
、
我们正在迁移我们的变异代码
从
Hadoop到星火运行在卡桑德拉之上(
通过
DataStax企业)。DSE 4.7在生产中,4.8在发展中。 我们的数据的每一个文本值都是前缀和后置“。这在sqlCont
浏览 3
提问于2016-03-23
得票数 1
回答已采纳
2
回答
火花驱动程序如何
序列化
发送给执行器的
任务
?
RDD
通过
对象中用户定义的函数/方法进行一系列转换。这些函数以
任务
的形式传递给执行者。这些
任务
是火花核心中定义的Scala类的实例。我假设用户定义的函数/方法包装在一个
任务
对象中,并传递给执行者。 在这里,
序列化
到底有多大帮助?火花上下文如何读取用户代码并将其转换为
任务
?
浏览 3
提问于2015-07-12
得票数 10
回答已采纳
2
回答
火花数据处理中的操作错误
、
、
在构建DataFrames之前,我对文件进行解压缩,
将
未压缩的csv文件
写入
磁盘,并使用它创建
DataFrame
。问题是:如果我
从
磁盘中删除csv文件(使其成为临时文件),在创建
dataframe
之后,我无法对
dataframe
执行任何操作(例如year_df.count())。抛出
Spark
.exception: 在对此进行了一些
浏览 0
提问于2017-01-09
得票数 1
回答已采纳
5
回答
spark
java
.util.logging.Logger
、
我正在使用
Spark
来运行一个使用
java
.util.logging.Logger的现有
Java
包,并且我得到了一个错误: at org.apache.
spark
.api.
java
.JavaRDDLike$class.foreach(JavaRDDLike.scala:332)at org.apache.
spark
.api.
java
浏览 10
提问于2016-08-12
得票数 0
4
回答
在DataFrames上执行RDD操作
、
、
、
、
我需要在这些
DataFrame
上执行RDD操作。是否可以执行map、flatMap等RDD操作。下面是我的示例代码:这是我的
dataframe
,我需要将这个
dataframe
转换成RDD,并在这个新的RDD上操作一些RDD下面是我如何
将
dataframe
转换为RDD的代码 RDD<Row>
java
= df.select("COUNTY&quo
浏览 2
提问于2016-12-14
得票数 0
1
回答
从
火花连接到SAPHANA
、
、
、
我试图
通过
JAVA
代码在SAP上使用
spark
来执行查询。在调用数据框架对象的任何操作
时
,当调用
java
.io.NotSerializableException.In
时
,
将
抛出NotSerializableException。:
任务
中的异常不能在、org.apache.
spark
.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:315)、org.apache.<
浏览 0
提问于2016-03-29
得票数 2
1
回答
火花-如何
将
~20 to的数据从一个
DataFrame
写到一个蜂窝表或hdfs?
、
、
我试图使用以下方法
将
数据
写入
Hive表:sqlContext.sql("INSERT OVERWRITE TABLE my_table:调用py4j.protocol.Py4JJavaError
时
出错:org.apache.
spark
.SparkException:由于阶段失败而中止的作业: 95561个
任务
(1024.0 MB)的
序列化
结果的总大小大于(SparkPlan.s
浏览 0
提问于2018-06-17
得票数 2
1
回答
Apache使用动态分区覆盖和S3委员会将Parquet文件
写入
到S3
、
、
、
、
确保在提交到S3之前
将
火花暂存文件
写入
本地磁盘,因为在S3中进行暂存,然后
通过
重命名操作提交,这是非常昂贵的。 除了最后一颗子弹外,我什么都有。但是,这意味着我的
spark
-staging文件是在S3中进行的,然后使用删除和重命名操作提交,这是非常昂贵的。 为了在本地磁盘上放置文件,我
尝试
使用。我希望能够将我的暂存文件
写入
本地磁盘,然后
将
结果提交给S3。但是,我还需要能够动态地覆盖单个分区,而不必
浏览 33
提问于2022-01-17
得票数 2
2
回答
如何在
Spark
2.3.0UDF中构造和持久化每个工作人员的引用对象?
、
、
、
、
在
Spark
2.3.0结构化流作业中,我需要将一列附加到
从
现有列的同一行的值派生的
DataFrame
中。在每个工作节点上构造和持久化该对象一次的最佳方法是什么,这样就可以对每个批处理中的每条
记录
重复引用该对象?注意,对象是
不可
序列化
的。我目前的
尝试
是
将</em
浏览 1
提问于2018-06-06
得票数 2
回答已采纳
5
回答
如何在火花中
写入
CSV
、
、
、
、
我使用的是
Spark
,到目前为止,我的所有文件都保存为part-00000。 有什么想法,如何使我的火花保存为文件指定的文件名?
浏览 2
提问于2014-05-07
得票数 33
回答已采纳
2
回答
正确使用.cache()和.unpersist()
、
、
、
这是我所做的: val grc = Tables.getGRC(
spark
) // This is my first df.val grc_cache = grc.cache() { sigma = sigma.union(Tables.getSIGMA(
spark
, use_databas
浏览 43
提问于2019-09-06
得票数 0
回答已采纳
1
回答
Jupyter notebook、pyspark、hadoop-aws问题
、
、
、
、
我正在
尝试
同时使用Jupyter、PySpark和S3文件(
通过
s3a协议)。,file:///home/ashic/.ivy2/jars/com.amazonaws_aws-
java
-
sdk
-bundle-1.11.199.jar'), ('
spark
.submit.pyFiles-3.0.0.jar,file:///home/ashic/.ivy2/j
浏览 1
提问于2018-11-16
得票数 2
1
回答
调用外部web服务的Databricks UDF不能
序列化
(PicklingError)
、
、
、
、
我正在使用Databricks,并且在
dataframe
中有一个列,我需要用外部web服务调用来更新每个
记录
。在本例中,它使用并执行服务调用。这段代码在没有作为一个UDF运行的火花(即。但是,当我试图将其称为UDF
时
,它会抛出一个
序列化
错误。如果我使用lambda和带有rdd的映射,也会发生同样的情况。该模型使用fastText,可以
通过
普通的http调用或使用WebService
SDK
从
Postman或python调用它--只是当它是一个UDF
时
,
浏览 1
提问于2019-11-12
得票数 1
回答已采纳
1
回答
无法在scala工作表中运行Intellij
、
、
但是,当我
尝试
从
工作表中运行它
时
,我会遇到以下情况之一: .option("header", "true") // Displays the content of the
Dat
浏览 12
提问于2017-04-05
得票数 4
3
回答
Spark
函数与UDF性能?
、
、
、
、
Spark
现在提供了可以在数据帧中使用的预定义函数,而且它们似乎是高度优化的。我最初的问题是哪个更快,但我自己做了一些测试,发现
spark
函数至少在一个实例中快了10倍。有没有人知道为什么会这样,什么时候udf会更快(只有在存在相同的
spark
函数的情况下)?下面是我的测试代码(在Databricks社区版上运行):from faker import Factory
浏览 26
提问于2016-07-11
得票数 58
回答已采纳
2
回答
为什么星火比Hadoop地图减少更快
、
有人能用单词计数的例子来解释为什么星火比地图减少更快吗?
浏览 5
提问于2015-09-14
得票数 15
1
回答
DynamicFrame.fromDF在使用glueContext.write_from_options()
写入
数据库时会造成极大的延迟
、
要
写入
的数据大小约为15 be。
将
数据
从
approx.)Perform读取到火花数据存储(在火花数据处理上的3-5秒glueContext.create_dynamic_frame.from_options()转换(约5秒))
将
数据<em
浏览 9
提问于2022-10-14
得票数 0
1
回答
执行多个数据连接
时
的PySpark OutOfMemoryErrors
、
、
在
尝试
将
许多不同的数据文件连接在一起
时
,我在PySpark中遇到了PySpark。我要加入的主
dataframe
大约有10列,但也包含一个uid列(我正在加入)。 我只是
尝试
加入1500行数据。但是,当所有这些数据显然都可以放入内存中
时
,我
将
遇到频繁的OutOfMemory错误。我真的怀疑
任务
序列化
/反
序列化
存在一些问题。例如,当我为一个典型的阶段查看我的事件Timeline
时
,我看到它的
浏览 1
提问于2018-07-12
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Apache Spark 2.4 内置的 Avro 数据源实战
简化TensorFlow和Spark互操作性的问题:LinkedIn开源Spark-TFRecord
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
大数据之spark基础知识
Spark SQL,DataFrames 以及 Datasets 编程指南
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券