在spark中拆分管道？

假设我有一个这样的Spark管道(格式化以强调重要的步骤)： .map(someComplicatedProcessing) .distinct().collect().toSetval foos2 = spark_session.read(foo_file有没有一种方法可以在.map(som

浏览 8提问于2017-12-19得票数 1

回答已采纳

2回答

如何在带有delemter |@|的spark sql中使用Split函数？

、

我的列包含的数据为，---aaa|@|sss|@|sdf如何使用spark sql拆分这部分内容。我正在尝试spark.sql("select split(col,'|@|')").show()，但它没有给我适当的结果。我试着逃走\但还是不走运。有没有人知道这里发生了什么..

浏览 0提问于2020-10-20得票数 0

2回答

如何动态创建Spark管道

、、

我正在构建一个简单的web服务，用户可以轻松地在UI中构建一个Spark管道并将其持久化，这样用户就可以检索保存的管道并开始训练它。以下是这样的想法：当用户点击“保存”按钮时，

浏览 5提问于2017-01-07得票数 1

1回答

将零件文件缝合为具有自定义名称的文件

、

如果在GCS Bucket中同步，Data Fusion Pipeline会在输出时提供一个或多个零件文件。我的问题是，我们如何将这些部分文件组合成一个文件，并为它们指定一个有意义的名称？

浏览 1提问于2020-08-27得票数 1

1回答

如何使用Spark上的交叉验证对SVM和DT进行数据分割

、、

我在我的项目中使用Spark MLlib。我使用了支持向量机，决策树和随机森林。我已经将数据集分为训练和测试(60%的训练，40%的测试)，并得到了我的结果。我怎么能在Spark上做到这一点呢？我找到了几个使用logistic回归和管道进行拆分的代码，这些代码不适用于SVM。我需要将数据拆分为10倍，然后现在应用SVM。另外，我想打印每个折叠的精度。

浏览 48提问于2019-01-01得票数 1

1回答

如何以编程方式从提交ID或驱动程序ID中获取应用程序ID

我在集群部署模式下提交一个火花作业。我在我的代码中得到提交ID。为了使用Spark，我们需要applicationId。那么，如何以编程方式通过提交Id获得应用程序ID？

浏览 1提问于2015-08-20得票数 8

1回答

Azure Synapse Apache Spark :流水线级火花配置

、、

和试图为整个蔚蓝突触管道配置火花。%%configure魔术命令可以很好地工作在单笔记本上。示例：%%configure -f "driverMemory": "28g", "executorMemory") print(f"spark.driver.memory {spark_driver_memory}"

浏览 8提问于2021-12-21得票数 3

1回答

如何将分区拼图文件写入blob存储

、、

我想将数据从本地SQL SERVER加载到blob存储中，并在ADF中进行复制活动，目标文件是parquet，此文件的大小为5 Gb。管道工作良好，他写了一个拼图文件，现在我需要将这个文件拆分为多个拼图文件，以优化加载数据与保利基地和其他用途。使用Spark，我们可以通过以下语法将文件划分为多个文件： df.repartition(5).write.parquet("path")

浏览 0提问于2019-05-22得票数 0

1回答

使用spark中的SQL和权重

、

我正在试验spark.ml库和管道功能。使用带有splits的SQL似乎有一个限制(例如用于培训和测试)： spark.ml在模式rdd之外工作是很好的，但是在测试和训练集中不存在随机拆分模式rdd的方法。我可以强制使用case类，并将其隐藏到模式RDD中，但是我有很多特性。我使用了过滤器，并根据我的iid特性使用了一些基本的分区条件)。对还能做些什么有什么建议吗？

浏览 5提问于2015-02-06得票数 1

回答已采纳

2回答

用Python在Spark上运行Apache字词计数管道时的低并行性

、、

，将结果存储在一个Parquet表中。因此，我下载了50 on的维基百科文本文件，分拆了大约100个未压缩的文件，并将它们存储在目录/mnt/nfs_drive/wiki_files/中(/mnt/nfs_drive是一个安装在所有工作人员上的首先，我使用以下命令启动了Spark作业服务器(在Spark主节点上)： docker run --rm --net=host -e SPARK_EXE

浏览 3提问于2020-11-17得票数 6

回答已采纳

1回答

PySpark正在写入大型单个拼图文件，而不是分区文件

、、

对于我的大多数文件，当我读入带分隔符的文件并将它们写出到snappy parquet时，spark会像我预期的那样执行，并创建多个分区的snappy parquet文件。也就是说，我有一些用管道分隔的大型.out文件(25GB+)，当我读入它们时： inputFile = spark.read.load(s3PathIn, format='csv', sep=fileSeparator我的所有其他spark流水线都生成了良好的拆分文件，这使得在Athena中<

浏览 17提问于2021-07-19得票数 0

1回答

具有以SparkSession实例开头的spark应用程序的链接紧缩spark管道

、

Crunch管道可以将Java spark context作为参数，但如果spark应用程序以SparkSession实例启动(因为spark Java程序包括数据集并需要sparkSQL)。在这种情况下，我如何在spark应用程序上添加另一个抽象层(Crunch pipeline)？

浏览 17提问于2017-03-15得票数 1

2回答

如何提交在运行时生成的火花作业？

、、、

在做了一些googling之后，我认为没有一种简单的方法可以在不首先创建jar文件的情况下执行Spark作业。我的想法是在Spark/Scala代码上创建一个类似于构建器的抽象，通过注入相关对象在运行时对其进行配置，然后将该抽象转换为实际的原始Scala代码并将其写入磁盘。然后，我将使用ProcessBuilder或其他工具在Scala代码上运行一个sbt包，并以这种方式构建jar。使用SparkLauncher的缺点是，我必须预先包装一个巨大的Spark，其中包含它所能做的所

浏览 3提问于2017-11-25得票数 3

回答已采纳

1回答

是否可以访问spark.ml管道中的估计器属性？

、、、

我在Spark1.5.1中有一个spark.ml管道，它由一系列变压器和k均值估计器组成。我想在安装管道后能够访问.clusterCenters，但不知道如何实现。是否有一个与spark.ml等价的pipeline.named_steps特性？im

浏览 1提问于2015-10-19得票数 16

1回答

当一列为xml时使用sparl.read.csv

、、、

当我把这个从azure data lake读到databricks笔记本中时，它将xml拆分成新的行，而不是将它保存在一个字段中。有没有办法阻止这种情况的发生？数据在显示时如下所示 ? 我使用以下代码来读取csv sourceDf = spark.read.csv(sourceFilePath, sep=',', header=True, inferSchema=True) 我正在尝试用ADF构建数据管道，并希望使用databricks来解析XML字段，但我需

浏览 27提问于2021-10-14得票数 1

回答已采纳

1回答

spark中有没有库可以根据标签拆分xml文件？

、、

我尝试在Spark Scala中拆分XML文件。我找到了用于在Java中拆分XML数据的JAXB库，但是我找不到任何用于Spark Scala的库。有可用的lib吗？提前谢谢你！

浏览 0提问于2017-11-16得票数 0

1回答

如何使用Spark将文本文件拆分为多列

、、、

.|results1.select(expr("(split(all, '|'))[1]").cast("integer").as("DEPT_NO"),expr9| || 1|| 2| 9| || 1|| 2| 7| || 4| 它看起来不能识别分隔符，因为分割是在每个字符之后完成的，而不是在每个“\”之后完

浏览 1提问于2016-11-01得票数 0

回答已采纳

5回答

Apache Spark* Codegen阶段超过64 KB*

、、、

当我在创建关于200+列的30+列上进行功能工程时，我得到了一个错误。这不是作业失败，但显示了错误。我想知道怎样才能避免这种情况。我的火花-提交-> spark-submit --master spark://192.168.60.20:7077 --num-executors 4 --executor-cores 5 --executor-memory10G --driver-cores 5 --driver-memory 25G --conf spark.sql.shuffle.partiti

浏览 7提问于2018-06-17得票数 18

1回答

Spark HiveContext: HDFS上包含多个文件的表

、、、

表X在HDFS上的位置是/data/hive/X。文件：/data/hive/X/f2提前谢谢。

浏览 8提问于2016-09-14得票数 0

回答已采纳

2回答

火花:如何将RDD转换为用于管道的Seq

、、、、

我想在MLlib中使用管道的实现。以前，我有一个RDD文件并将其传递给模型创建，但是现在要使用管道，应该有要传递给管道的LabeledDocument序列。line.split(',') }.cache()// Prepare training d

浏览 1提问于2015-06-19得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在带有delemter |@|的spark sql中使用Split函数？

如何动态创建Spark管道

将零件文件缝合为具有自定义名称的文件

如何使用Spark上的交叉验证对SVM和DT进行数据分割

如何以编程方式从提交ID或驱动程序ID中获取应用程序ID

Azure Synapse Apache Spark :流水线级火花配置

如何将分区拼图文件写入blob存储

使用spark中的SQL和权重

用Python在Spark上运行Apache字词计数管道时的低并行性

PySpark正在写入大型单个拼图文件，而不是分区文件

具有以SparkSession实例开头的spark应用程序的链接紧缩spark管道

如何提交在运行时生成的火花作业？

是否可以访问spark.ml管道中的估计器属性？

当一列为xml时使用sparl.read.csv

spark中有没有库可以根据标签拆分xml文件？

如何使用Spark将文本文件拆分为多列

Apache Spark* Codegen阶段超过64 KB*

Spark HiveContext: HDFS上包含多个文件的表

火花:如何将RDD转换为用于管道的Seq

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐