腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
spark
中
拆分
管道
?
假设我有一个这样的
Spark
管道
(格式化以强调重要的步骤): .map(someComplicatedProcessing) .distinct().collect().toSetval foos2 =
spark
_session.read(foo_file有没有一种方法可以
在
.map(som
浏览 8
提问于2017-12-19
得票数 1
回答已采纳
2
回答
如何在带有delemter |@|的
spark
sql中使用Split函数?
、
我的列包含的数据为,---aaa|@|sss|@|sdf如何使用
spark
sql
拆分
这部分内容。我正在尝试
spark
.sql("select split(col,'|@|')").show(),但它没有给我适当的结果。我试着逃走\但还是不走运。 有没有人知道这里发生了什么..
浏览 0
提问于2020-10-20
得票数 0
2
回答
如何动态创建
Spark
管道
、
、
我正在构建一个简单的web服务,用户可以轻松地
在
UI
中
构建一个
Spark
管道
并将其持久化,这样用户就可以检索保存的
管道
并开始训练它。以下是这样的想法: 当用户点击“保存”按钮时,
浏览 5
提问于2017-01-07
得票数 1
1
回答
将零件文件缝合为具有自定义名称的文件
、
如果在GCS Bucket
中
同步,Data Fusion Pipeline会在输出时提供一个或多个零件文件。我的问题是,我们如何将这些部分文件组合成一个文件,并为它们指定一个有意义的名称?
浏览 1
提问于2020-08-27
得票数 1
1
回答
如何使用
Spark
上的交叉验证对SVM和DT进行数据分割
、
、
我
在
我的项目中使用
Spark
MLlib。我使用了支持向量机,决策树和随机森林。我已经将数据集分为训练和测试(60%的训练,40%的测试),并得到了我的结果。我怎么能在
Spark
上做到这一点呢?我找到了几个使用logistic回归和
管道
进行
拆分
的代码,这些代码不适用于SVM。 我需要将数据
拆分
为10倍,然后现在应用SVM。 另外,我想打印每个折叠的精度。
浏览 48
提问于2019-01-01
得票数 1
1
回答
如何以编程方式从提交ID或驱动程序ID
中
获取应用程序ID
我
在
集群部署模式下提交一个火花作业。我
在
我的代码
中
得到提交ID。为了使用
Spark
,我们需要applicationId。那么,如何以编程方式通过提交Id获得应用程序ID?
浏览 1
提问于2015-08-20
得票数 8
1
回答
Azure Synapse Apache
Spark
:流水线级火花配置
、
、
和试图为整个蔚蓝突触
管道
配置火花。%%configure魔术命令可以很好地工作
在
单笔记本上。示例:%%configure -f "driverMemory": "28g", "executorMemory") print(f"
spark
.driver.memory {
spark
_driver_memory}"
浏览 8
提问于2021-12-21
得票数 3
1
回答
如何将分区拼图文件写入blob存储
、
、
我想将数据从本地SQL SERVER加载到blob存储
中
,并在ADF中进行复制活动,目标文件是parquet,此文件的大小为5 Gb。
管道
工作良好,他写了一个拼图文件,现在我需要将这个文件
拆分
为多个拼图文件,以优化加载数据与保利基地和其他用途。使用
Spark
,我们可以通过以下语法将文件划分为多个文件: df.repartition(5).write.parquet("path")
浏览 0
提问于2019-05-22
得票数 0
1
回答
使用
spark
中
的SQL和权重
、
我正在试验
spark
.ml库和
管道
功能。使用带有splits的SQL似乎有一个限制(例如用于培训和测试):
spark
.ml
在
模式rdd之外工作是很好的,但是
在
测试和训练集中不存在随机
拆分
模式rdd的方法。我可以强制使用case类,并将其隐藏到模式RDD
中
,但是我有很多特性。我使用了过滤器,并根据我的iid特性使用了一些基本的分区条件)。对还能做些什么有什么建议吗?
浏览 5
提问于2015-02-06
得票数 1
回答已采纳
2
回答
用Python
在
Spark
上运行Apache字词计数
管道
时的低并行性
、
、
,将结果存储
在
一个Parquet表
中
。因此,我下载了50 on的维基百科文本文件,分拆了大约100个未压缩的文件,并将它们存储
在
目录/mnt/nfs_drive/wiki_files/
中
(/mnt/nfs_drive是一个安装在所有工作人员上的首先,我使用以下命令启动了
Spark
作业服务器(
在
Spark
主节点上): docker run --rm --net=host -e
SPARK
_EXE
浏览 3
提问于2020-11-17
得票数 6
回答已采纳
1
回答
PySpark正在写入大型单个拼图文件,而不是分区文件
、
、
对于我的大多数文件,当我读入带分隔符的文件并将它们写出到snappy parquet时,
spark
会像我预期的那样执行,并创建多个分区的snappy parquet文件。也就是说,我有一些用
管道
分隔的大型.out文件(25GB+),当我读入它们时: inputFile =
spark
.read.load(s3PathIn, format='csv', sep=fileSeparator我的所有其他
spark
流水线都生成了良好的
拆分
文件,这使得
在
Athena
中<
浏览 17
提问于2021-07-19
得票数 0
1
回答
具有以SparkSession实例开头的
spark
应用程序的链接紧缩
spark
管道
、
Crunch
管道
可以将Java
spark
context作为参数,但如果
spark
应用程序以SparkSession实例启动(因为
spark
Java程序包括数据集并需要sparkSQL)。在这种情况下,我如何在
spark
应用程序上添加另一个抽象层(Crunch pipeline)?
浏览 17
提问于2017-03-15
得票数 1
2
回答
如何提交在运行时生成的火花作业?
、
、
、
在做了一些googling之后,我认为没有一种简单的方法可以
在
不首先创建jar文件的情况下执行
Spark
作业。我的想法是
在
Spark
/Scala代码上创建一个类似于构建器的抽象,通过注入相关对象在运行时对其进行配置,然后将该抽象转换为实际的原始Scala代码并将其写入磁盘。然后,我将使用ProcessBuilder或其他工具
在
Scala代码上运行一个sbt包,并以这种方式构建jar。使用SparkLauncher的缺点是,我必须预先包装一个巨大的
Spark
,其中包含它所能做的所
浏览 3
提问于2017-11-25
得票数 3
回答已采纳
1
回答
是否可以访问
spark
.ml
管道
中
的估计器属性?
、
、
、
我
在
Spark
1.5.1
中
有一个
spark
.ml
管道
,它由一系列变压器和k均值估计器组成。我想在安装
管道
后能够访问.clusterCenters,但不知道如何实现。是否有一个与
spark
.ml等价的pipeline.named_steps特性?im
浏览 1
提问于2015-10-19
得票数 16
1
回答
当一列为xml时使用sparl.read.csv
、
、
、
当我把这个从azure data lake读到databricks笔记本
中
时,它将xml
拆分
成新的行,而不是将它保存在一个字段
中
。 有没有办法阻止这种情况的发生?数据
在
显示时如下所示 ? 我使用以下代码来读取csv sourceDf =
spark
.read.csv(sourceFilePath, sep=',', header=True, inferSchema=True) 我正在尝试用ADF构建数据
管道
,并希望使用databricks来解析XML字段,但我需
浏览 27
提问于2021-10-14
得票数 1
回答已采纳
1
回答
spark
中有没有库可以根据标签
拆分
xml文件?
、
、
我尝试
在
Spark
Scala
中
拆分
XML文件。我找到了用于
在
Java
中
拆分
XML数据的JAXB库,但是我找不到任何用于
Spark
Scala的库。有可用的lib吗? 提前谢谢你!
浏览 0
提问于2017-11-16
得票数 0
1
回答
如何使用
Spark
将文本文件
拆分
为多列
、
、
、
.|results1.select(expr("(split(all, '|'))[1]").cast("integer").as("DEPT_NO"),expr9| || 1|| 2| 9| || 1|| 2| 7| || 4| 它看起来不能识别分隔符,因为分割是
在
每个字符之后完成的,而不是
在
每个“\”之后完
浏览 1
提问于2016-11-01
得票数 0
回答已采纳
5
回答
Apache
Spark
Codegen阶段超过64 KB
、
、
、
当我
在
创建关于200+列的30+列上进行功能工程时,我得到了一个错误。这不是作业失败,但显示了错误。我想知道怎样才能避免这种情况。我的火花-提交->
spark
-submit --master
spark
://192.168.60.20:7077 --num-executors 4 --executor-cores 5 --executor-memory10G --driver-cores 5 --driver-memory 25G --conf
spark
.sql.shuffle.partiti
浏览 7
提问于2018-06-17
得票数 18
1
回答
Spark
HiveContext: HDFS上包含多个文件的表
、
、
、
表X
在
HDFS上的位置是/data/hive/X。文件:/data/hive/X/f2提前谢谢。
浏览 8
提问于2016-09-14
得票数 0
回答已采纳
2
回答
火花:如何将RDD转换为用于
管道
的Seq
、
、
、
、
我想在MLlib中使用
管道
的实现。以前,我有一个RDD文件并将其传递给模型创建,但是现在要使用
管道
,应该有要传递给
管道
的LabeledDocument序列。line.split(',') }.cache()// Prepare training d
浏览 1
提问于2015-06-19
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
管道类UV的快速拆分小技巧
GC调优在Spark应用中的实践
介绍 Linux 中的管道和命名管道
中软国际哈尔滨ETC:在物联网时代,不要成为“哑巴管道”
智能电位采集仪在管道阴极保护系统中的作用
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券