腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Apache
Spark
:
将
列
作为
Transformer
参数
传递
、
、
、
它会导致序列化问题: Serialization stack:- field (class: my.project.MyTransformer, name: condition, type: class org.
apache
.
spark
.sql.Column在我的理解中,
Transformer
被序列化以分派给executors,因此每个
浏览 17
提问于2019-10-16
得票数 1
1
回答
火花放电管道中的用户定义变压器
、
、
、
、
我的数据集有一个
列
,它是一个字符串。因此,在应用管道模型之前,我使用“StringIndexer”将其转换为数字。我的管道只包含两个阶段StringIndexer和ClassificationModel有其他方法可以删除StringIndexer中的实际
列
吗? 谢谢
浏览 0
提问于2017-07-19
得票数 2
回答已采纳
1
回答
参数
为动态的火花滞后函数
、
nullDataFrame df; org.
apache
.
spark
.sql.functions.lag但是,如果我
将
滞后值
作为
参数
传递
,它将不起作用: org.
apache
.
spark<
浏览 3
提问于2016-09-16
得票数 3
2
回答
如何用MLlib编写自定义转换器?
、
、
、
我想在scala中为
Spark
2.0中的管道编写一个自定义
Transformer
。到目前为止,我还不清楚copy或transformSchema方法应该返回什么。他们返回null?
作为
拷贝是正确的吗? 当
Transformer
扩展PipelineStage时,我得出结论,fit调用transformSchema方法。由于我的
Transformer
应该使用(非常小的)第二个数据集加入数据集,所以我也希望将该数据集存储在序列化管道中。如何将其存储在转换器中,以便正确地使用管道序列化机制?一个简单的转换器是如何
浏览 5
提问于2016-11-15
得票数 3
回答已采纳
1
回答
如何在
Spark
2.4中加载自定义变压器
、
、
(ReadWrite.scala:496) at TestTransformerMCVE:import org.
apache
.
spark
.sql.types.{StructType} import org.
apache
.<e
浏览 0
提问于2019-04-18
得票数 2
回答已采纳
2
回答
如何
将
变量
参数
传递
给我的scala程序?
、
我是scala
spark
的新手。这里我有一个单词计数程序,其中我
将
输入文件
作为
参数
传递
,而不是硬编码并读取它。我不知道如何
将
文件名(在代码中)
作为
参数
传递
到我的主类中import org.
apache
.
spark
.SparkConf importorg.
apache
.<
浏览 15
提问于2019-07-28
得票数 0
2
回答
Apache
Spark
,使用List<?>
作为
第一个
参数
的createDataFrame示例
、
、
有没有人能举例说明一下
Spark
JavaDoc中提到的public DataFrame createDataFrame(java.util.List<?我有一个JSON字符串列表
作为
第一个
参数
传递
,因此我
将
String.class
作为
第二个
参数
传递
,但它给出了一个错误 java.lang.ClassCastException: org.
apache
.
spark
.sql.types.StringType$ ca
浏览 0
提问于2016-06-25
得票数 4
1
回答
不能通过封装火花加载avro -avro_2.11在jar中
、
;<groupId>org.
apache
.
spark
</groupId><version>2.4.4但是,如果我在
spark
submit命令中添加了--包org.
apache
.sight:
spark
_2.11:2.4.4,它就可以工作。 <?--
spark
-
浏览 5
提问于2020-05-08
得票数 1
1
回答
如何使用
spark
.catalog.createTable函数创建分区表?
https://
spark
.
apache
.org/docs/latest/api/scala/index.html#org.
apache
.
spark
.sql.catalog.Catalog 有一个选项
参数
,但我没有找到任何使用它来
传递
已分区
列
的示例
浏览 19
提问于2019-01-21
得票数 4
2
回答
如何
将
df列
作为
参数
传递
给函数?
、
return "Young" return "Older" return "Mid-age"}但是得到了错误 发现
浏览 0
提问于2019-03-31
得票数 1
1
回答
在运行
Spark
作业时获取
Spark
提交的
参数
、
我正在通过
spark
-submit运行一个
spark
作业,并使用它的--files
参数
加载一个log4j.properties文件。在我的
Spark
工作中,我需要获得这个
参数
//DriverHolder.log.info
浏览 1
提问于2016-07-07
得票数 2
1
回答
如果Maven坐标必须是'groupId:artifactId:version‘PySpark和Kafka格式的
、
、
当
将
Kafka消息转换为dataframe时,在
将
包
作为
参数
传递
时会出现错误。SparkContextimport os os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.
apache
.
spark
:
spark
-sql-kafka-0-10_2.11:2.2.0.jar: org.
apache</
浏览 1
提问于2020-06-12
得票数 2
回答已采纳
1
回答
Spark
提交中的Json
参数
、
、
、
我的
spark
-submit命令:
spark
-submit --deploy-mode cluster --class
spark
_package.import_jar s3://test-system\"\", \"clusterid\": \"test\", \"clientCd\": \"1000\", \"processid\": \"1234\"} }" 在
浏览 18
提问于2019-01-12
得票数 0
回答已采纳
2
回答
需要通过
apache
livy提交hudi delta streamer作业的帮助
、
、
、
我对如何
将
参数
作为
REST API JSON
传递
感到有点困惑。 考虑下面的
spark
提交命令。
spark
-submit --packages org.
apache
.hudi:hudi-utilities-bundle_2.11:0.5.3,org.
apache
.
spark
:
spark
-avro_=200m \ --conf
spark
.serializer=org.
apache
.
浏览 56
提问于2021-06-17
得票数 0
回答已采纳
1
回答
在dataframel中调用具有多个
参数
的Udf失败
、
、
、
、
我在Scala和
spark
sql中工作,在那里我想调用UDF,它有多个
参数
。for(field <- fields){} 可能我不知道如何在udf或其他地方
将
字符串
作为
JSONOBJECT
传递
。java.lang.ClassCastException: ********$$parseJsonUdf$1 cannot be cast to scala.Fun
浏览 17
提问于2020-06-19
得票数 0
1
回答
在Java中
传递
多个文件的XSLT
、
、
、
我需要将两个XML文件
传递
给XSLT样式表进行转换。引用了一个文件,如下所示:在本例中,XSL生成所需的输出,但我希望从java动态
传递
此文档conformance);Source ss = new StreamSource(reader)
浏览 1
提问于2014-01-24
得票数 0
1
回答
当
将
setParameter与节点集一起使用时,会引发异常“从java.lang.String到节点集的无效转换”。
、
、
在
将
XML字符串
作为
参数
传递
给XSLT时,我面临一个问题。这会导致异常:从“java.lang.String”到“节点集”的转换无效。这是调用XSLT的方法:=TransformerFactory.newInstance().newTransformer(xslt_file_path然后我得到一个例外: 从'com.sun.org.
apache
.xerces.internal.dom.DeferredDoc
浏览 3
提问于2013-08-20
得票数 5
1
回答
在scala中调用UDF时为何更改数据类型
、
、
Math.atan2(Math.sqrt(a), Math.sqrt(1 - a)) distance我需要为df生成一个新
列
:^ 从模式中可以看到,所有涉及的字段都是double类型,这符合udf的
参数
类型定义
浏览 1
提问于2019-03-13
得票数 1
回答已采纳
1
回答
管线拟合与数据处理
、
、
我有一个包含文本的文件。我想做的是使用管道来标记文本,删除停止词并产生2克。步骤1:读取文件步骤2:构建管道val pipe2 = new StopWordsRemover().setInputCol("words").setOut
浏览 1
提问于2017-02-19
得票数 2
回答已采纳
1
回答
如何使用变量
作为
火花选定字段
、
我刚接触过scala,有一个有很多
列
的dataframe,我想选择一些字段,但是每次都必须按照下面的方式列出它们,我如何定义一个变量代表它们并传入scala?
浏览 3
提问于2022-03-11
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
自定义开发Spark ML机器学习类
Spark机器学习入门实例:大数据集二分类
Burger King使用RayOnSpark进行基于实时情景特征的快餐食品推荐
Apache Spark 2.4 内置的 Avro 数据源实战
SparkStreaming-1
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券