使用Spark Scala从YAML文件中提取键、值对_在Scala/Spark中获取键/值对的键_使用Spark解析JSON文件并提取键和值 - 腾讯云开发者社区

scala、apache-spark、yaml

我有一个YAML文件，我需要从中获取(Key，Value)对。下面是为加载YAML文件而编写的loadYAML方法。def loadYAML(path: String): String = { val yamlReader = new ObjectMapper((new YAMLFactory)) val o

浏览 167提问于2020-07-27得票数 0

2回答

从yaml文件加载Java spark配置

java、scala、apache-spark、yaml

主程序和应用程序名称来自一个包含应用程序配置的yaml文件，其余的spark配置是硬编码的，并一次设置一个。 ... other spark configs 我想知道是否可以使用yaml文件中的这些配置，通过SparkConf提供的s

浏览 17提问于2016-09-14得票数 0

回答已采纳

3回答

我需要帮助解析scala中的一个文件，以运行星火作业。

scala、parsing、apache-spark

我正在Scala中运行一个Spark作业，我对解析输入文件很感兴趣。输入文件(TAB分隔)类似于， date=20160402 name=john age=33 20160402约翰33 SCALA</em

浏览 4提问于2016-07-01得票数 0

1回答

从文件系统中填充Properties对象

scala、dataframe、apache-spark、apache-spark-sql、databricks

TL:DR或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？全面问题：属性文件不是本地的，它位于Databricks集群上。尝试从"dbfs:/“或"/dbfs”读取文件时，在使用scala.io.Source库

浏览 4提问于2020-12-29得票数 1

回答已采纳

1回答

如何使用Spark在Scala中返回多列键和值对

scala、apache-spark

我想把下面的RDD转换成键值对，每个键有两个值。第一列应该是键，第二列和第三列应该是值。如何使用scala中的Case类执行转换？scala> input scala<

浏览 0提问于2018-05-29得票数 0

1回答

使用xpath激发XML生成键值对

scala、apache-spark

我需要从xml中提取数据，并使用CSV文件连接提取的数据(示例列:2)。sc.wholeTextFiles("/user/hadoop/selva/Test.xml")val mapVal = xmlVal.map(x => scala.xml.XML.loadStringtext)Output : res3: Array[String] = Array(s

浏览 2提问于2016-01-01得票数 0

1回答

如何在中使用目标数据验证器？

apache-spark、validation、databricks、azure-databricks

我正在尝试运行由Target创建的称为数据验证器的数据验证框架，以验证Azure databricks中一个parquet文件中的数据。我已经创建了一个火花作业，它将使用数据验证器fat jar文件。如果我给出一个参数--帮助，我可以获得关于如何使用数据验证器的帮助，但是当我传递--config test_config.yaml文件时，数据验证器找不到该文件。(SparkApplication.scala:52) at org

浏览 3提问于2021-12-30得票数 1

1回答

将saveAsTextFile()写入多个文件，而不是一个

scala、apache-spark

我现在正在笔记本电脑上使用Spark和Scala。我的代码是：我

浏览 4提问于2016-02-17得票数 5

回答已采纳

1回答

snakeyaml和spark导致无法构造对象。

scala、apache-spark、snakeyaml

下面的代码在scala shell中执行得很好，给出了snakeyaml版本1.17import org.yaml.snakeyaml.constructor.Constructorimport scala.collection.mutable.ListBuffer @(classOf[Email

浏览 10提问于2016-06-23得票数 9

回答已采纳

1回答

在map调用中获取Spark上的行

java、hadoop、apache-spark、hbase

我尝试从HDFS中的文件中聚合数据。我需要添加一些细节，从这些数据的价值在hbase中的一个特定表。(RDD.scala:286) at org.apache.spark.api.java.JavaRDDLike$class.mapToPair(JavaRDDLike.scala:113)我的问题是:如何使用hbase表中包含的值来完成我的RDDs。例如: hdfs中的<e

浏览 11提问于2017-02-02得票数 2

回答已采纳

1回答

从ES中获取数据并保存到HDFS作为Avro (火花)

scala、apache-spark、rdd

我对Spark和Scala还不熟悉，所以我有一个非常基本的问题。我有Spark1.5.2和Scala2.10.4。我创建了一个配置，允许我在使用spark-shell命令启动--config时直接从ES中以JSON的形式获取一些数据；我还导入了elasticsearch-hadoop的--jar。现在，我想用JSON提取Map，创建一个模式，并将数据以Avro格式放入HDFS。scala.colle

浏览 3提问于2017-05-11得票数 0

回答已采纳

1回答

如何在Spark中拆分序列文件

scala、apache-spark

我是Spark的新手，尝试读取序列文件并将其用于分类问题。下面是我读取序列文件的方法我不知道如何按制表符拆分序列文件的每一行？即如何获取文本值？如何在Mllib中将其用于NAiveBayes分类器？

浏览 1提问于2015-07-31得票数 0

1回答

如何测试某个值是否是RDD的键

scala、apache-spark

我对Spark和Scala非常陌生，我想测试一个值是否是RDD中的一个键。我掌握的数据如下： RDD :关键的->统计数据是否有更好的方法，以及如何使用Scal

浏览 1提问于2015-01-12得票数 1

回答已采纳

1回答

试图将json文件读入scala中的Map[String，Object]

json、scala、apache-spark

我正试图在scala项目中读出一个json配置文件。}, "name": "testString", "value": "yeah" ]我一直在使用星星之火生成一个数据框架val df = spark.read.option("multiline","true"

浏览 2提问于2020-05-22得票数 0

回答已采纳

1回答

使用spark和scala进行文本提取

scala、apache-spark、spark-streaming、text-extraction

我在scala中有一个文本提取算法，我想在它上面使用spark。我不能理解如何使用它，因为我对spark和scala都是新手，我的算法是这样的 val algoobejct = new ObjectExtractval instances = algoobject.extract(sentence); } 我可以在这里有多个文本<em

浏览 0提问于2017-03-19得票数 0

2回答

为什么我的火花连接器包的maven子依赖项版本与其他版本不同？

java、maven、apache-spark、cassandra

我试图使用现有项目中的pom文件，并得到一个错误“无法解决org.yaml:snakeyaml:1.15” 关于这个错误，我发现com.datastax.spark:spark-cassandra-connector_2.11:2.5.0使用的是一对依赖项，下面是几个级别，它使用的是snakeyaml:1.15，这是由公司代理隔离的。我不明白的一件事是，我查看了同时使用com.datastax.spark:s

浏览 0提问于2021-05-12得票数 0

回答已采纳

2回答

Spark/Scala打开压缩的CSV文件

scala、apache-spark

我是Spark和Scala的新手。我们有广告事件日志文件格式为CSV的，然后使用pkzip压缩。我见过很多关于如何使用Java解压压缩文件的例子，但是我该如何使用Scala for Spark来解压呢？最终，我们希望从每个传入文件中获取、提取数据并将其加载到Hbase目标表中。在此之后，我们将引入Spark streaming来

浏览 1提问于2014-02-19得票数 5

3回答

ScalaSpark中属性的最佳实践

scala、hadoop、apache-spark、properties

我将在Scala开发。我来自一个Java背景，在这里我使用.properties文件并在开始时加载它们。然后，我有一个类用来访问我的属性的不同值。尝试谷歌搜索，但没有任何与此相关的信息。

浏览 5提问于2017-08-28得票数 2

回答已采纳

2回答

读取Spark代码中的本地/linux文件，在Yarn集群模式下执行

scala、file、apache-spark、hadoop、hadoop-yarn

如何在丝簇模式下访问和读取星火中的本地文件数据。local/linux file: /home/test_dir/test_file.csv 读取csv的星火代码： val test_data = spark.read.option(&quo

浏览 11提问于2022-02-04得票数 0

2回答

将JSON文件读入separate并从单独的Map中添加列

json、scala、apache-spark、apache-spark-sql、apache-spark-dataset

火花2.1和Scala 2.11在这里。我有一个很大的Map[String,Date]，其中包含10K键/值对。我还拥有10K JSON文件，驻留在一个Spark可以访问的文件系统上： some/ data00001.json我希望将所有这些JSON文件读入一个大型的Dataset中，并在此过程中向这个数据集

浏览 0提问于2017-08-01得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云