如何在scala df中压缩并添加一个列作为键 - 腾讯云开发者社区

、、、

我有这张表格的数据 +--------------------------------------+-----------------------------+ |hashMap |name | +--------------------------------------+-----------------------------+ |[{"A":"0","B":"0","C":"0"},

浏览 1提问于2021-06-02得票数 0

回答已采纳

2回答

如何在spark scala Dataframe中找到所有值都为null或NA值的列的列表？

如何在spark scala Dataframe中找到所有值都为null或NA值的列名列表？我已经尝试了下面的代码，我没有得到预期的结果。 val cond = df8.columns.map(x => col(x).isNull || col(x) === "NA") val df = Seq((Some(1.0), Some("NA"), null).toDF("A", "B", "C") 输出列表应包含B和C列预期结果：List[B,C]

浏览 28提问于2019-07-16得票数 1

回答已采纳

4回答

如何使用collect作为key，col作为value，以map的形式收集spark数据帧

我正在寻找一种整洁的方法来找到每一列的最大值，并收集在地图中作为{col name:max value of col}。下面是我在一个玩具示例中所取得的进展。在我的完整数据中有数百列，所以手动转换每一列是不可行的。 scala> import spark.implicits._ import spark.implicits._ scala> import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions._ scala> scala> val df = Seq((1,3)

浏览 49提问于2020-06-12得票数 0

回答已采纳

1回答

pyspark:重新分区后出现“值太多”错误

、、、、

我有一个DataFrame (转换为RDD)，并希望重新分区，以便每个键(第一列)都有自己的分区。这是我所做的： # Repartition to # key partitions and map each row to a partition given their key rank my_rdd = df.rdd.partitionBy(len(keys), lambda row: int(row[0])) 但是，当我试图将它映射回DataFrame或保存它时，我得到了这个错误： Caused by: org.apache.spark.api.python.PythonException:

浏览 0提问于2015-11-21得票数 5

3回答

如何在不同大小的数组列中随机选择元素？

、、

给定具有不同大小的整数数组列的数据文件： scala> sampleDf.show() +------------+ | arrays| +------------+ |[15, 16, 17]| |[15, 16, 17]| | [14]| | [11]| | [11]| +------------+ scala> sampleDf.printSchema() root |-- arrays: array (nullable = true) | |-- element: integer (containsNull =

浏览 0提问于2018-05-22得票数 3

回答已采纳

1回答

查找Spark数据帧中两列的差异并添加到新列

、、

下面是我的代码，将csv数据加载到dataframe中，在两列上应用差异，并使用withColumn.The将差异追加到新的列上。我试图找出两列的差异是一种双精度。请帮我找出以下例外情况： import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.SparkSession /** * Created by Guest1 on 5/10/2017. */ object arith extends App { Logger.getLogger("org").setLevel(Level.ER

浏览 3提问于2017-05-11得票数 3

回答已采纳

2回答

如何在Spark/Scala中查找多个空列

、、

我在Spark/Scala中有一个数据文件，它有100的列。许多oth列都有许多空值。我希望找到有超过90%空值的列，然后将它们从我的数据中删除。我怎样才能在Spark/Scala中做到这一点？

浏览 2提问于2017-08-04得票数 0

回答已采纳

2回答

火花红键连接器将数据写入红宝石的特定索引。

、、、、

我试图从Cassandra读取数据，并将特定索引写入Redis。假设Redis DB 5。我需要以hashmap格式将所有数据写入Redis索引5。 val spark = SparkSession.builder() .appName("redis-df") .master("local[*]") .config("spark.redis.host", "localhost") .config("spark.redis.port", "6379") .config("

浏览 6提问于2020-07-08得票数 4

2回答

如何在Spark2.2.0中加载XML文件？

、、、

当我在spark-2.2.0中加载xml文件时，如下所示： var ac = spark.read.format("xml").option("rowTag", "App").load("/home/sid/Downloads/Files/*.xml") 它给我显示了一个错误： java.lang.ClassNotFoundException:未能找到数据源: xml。请在org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSou

浏览 2提问于2018-01-24得票数 1

3回答

如何在Spark中读取ORC文件时保留分区列

、、

在Spark中读取ORC文件时，如果在路径中指定分区列，则该列将不会包含在数据集中。例如，如果我们有 val dfWithColumn = spark.read.orc("/some/path") val dfWithoutColumn = spark.read.orc("/some/path/region_partition=1") 那么dfWithColumn将有一个region_partition列，但dfWithoutColumn没有。我如何指定要包含所有列，即使它们已分区？我在scala上使用的是spark 2.2。 EDIT:这是一个可重用的S

浏览 1提问于2018-09-13得票数 5

1回答

如何在pandas中创建字典？

我有一个这样的列表： gene1 0.9018 0.6512 0.0368 0.0 ... gene2 0.0 0.0 0.0 0.0 ... gene3 0.0521 0.0 0.773 0.0 ... ... 我希望第一列(gene)是键，下一列是值。我如何在熊猫中做到这一点？

浏览 3提问于2017-03-11得票数 0

1回答

无法合并Scala Spark中的两个DataFrames

、、

我一直在尝试将1个DataFrame附加到Scala中的另一个DF上。本例中的追加操作只是将一个相同大小的新列添加到现有列中-不涉及键匹配。两个DataFrames的形状相同(仅5行1列)。 scala> val coefficients = lrModel.coefficients.toArray.toSeq.toDF("coefficients") coefficients: org.apache.spark.sql.DataFrame = [coefficients: double] scala> coefficients.show() +---------

浏览 8提问于2017-08-05得票数 0

回答已采纳

2回答

如何将DF转换为字符串/数组，然后再转换回DF？

、、

我想做以下几件事：我有一个有两列(ID，时间戳)的DataFrame，都是字符串，我想把它转换成另一种格式，字符串类型，或者ArrayString或ArrayRow，我真的不介意，但我想把它转换回DF。我尝试过不同的方法： val aux= df.collect().map { row => row.toString() } val distDataRDD = sc.parallelize(aux).toDF().show() 但是我只有一个名为"value“的列，它是来自原始DF的两列的串联。我也尝试过： val aux= df.collect().map { r

浏览 69提问于2019-10-24得票数 0

回答已采纳

7回答

Python:将pandas数据帧保存到拼图文件

、、

可以将pandas数据框直接保存到拼图文件中吗？如果没有，建议的流程是什么？目标是能够将拼图文件发送给另一个团队，他们可以使用scala代码读取/打开该文件。谢谢!

浏览 0提问于2016-12-10得票数 27

1回答

宽列数据库如何在存储布局上实现动态列？

、

众所周知，在关系数据库中，当添加新列时，必须重新分配()数据，以维护磁盘上的单行连续。我想了解这是如何在宽列存储上实现的，比如Cassandra，它是稀疏的，可以处理许多动态列插入( (动态列族))。谢谢!

浏览 3提问于2015-04-15得票数 1

回答已采纳

2回答

Apache :从Row提取值的问题

、、、

我和星火的排课有很多问题。在我看来，排课是一门设计很差的课程。从Row提取值应该并不比从Scala列表中提取值更困难；但是在实践中，您必须知道列的确切类型才能提取它。您甚至不能将列转换为字符串；对于一个伟大的框架(如Spark )来说，这有多荒谬呢？在现实世界中，在大多数情况下，您不知道列的确切类型，而且在许多情况下，您有几十个或数百个列。下面是一个示例，向您展示我所得到的ClassCastExceptions。有谁有从行中提取值的解决方案吗？ scala> val df = List((1,2),(3,4)).toDF("col1","col2") d

浏览 0提问于2018-03-23得票数 1

回答已采纳

1回答

org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainDoubleDictionary GCP UnsupportedOperationException：

、、、、

我是新来的火种，所以希望有人能帮忙。我试图读取存储在GCP桶上的拼板文件。该文件按日期进行分区，因此，例如bucket-name/year={}/month={}/day={} 对于给定的文件，我们有以下模式描述：直到3月份，我们以前在浮动数据类型中使用x和y列。 3月份以来，这2列现在都是双数据类型的。从我所看到的来看，吡火花在评估浮点数方面没有任何问题，而双数据类型是兼容的数据类型。(我在网上发现的类似的错误示例与数据类型不兼容有关，例如字符串和浮点数)，但是，如果我们试图读取该文件的所有可用数据，就会遇到这个奇怪的问题： #i.e. read all the data

浏览 4提问于2021-06-09得票数 0

2回答

在SFTP中将文件保存为.txt.gz的星火应用程序

、、

我有Spark(Scala)应用程序，它将SFTP中的特定数据存储为.txt文件。应用程序生成的文件有时达到20 by；这是消费者无法下载的文件。我想我可以压缩这个文件，这样我们就可以缩小文件的大小(特别是它是一个我们期望有很好的压缩比的文本文件)。我需要在Spark中使用(导入)任何引用或库来提供压缩文件吗？提前谢谢。

浏览 1提问于2020-01-23得票数 0

1回答

如何在pydeequ中运行所有建议的检查

、

我刚刚开始与pydeequ，我想创建检查火花数据，其中有1800个功能。现在，要知道我必须执行哪些检查，请执行以下操作 suggestionResult = ConstraintSuggestionRunner(spark) \ .onData(df) \ .addConstraintRule(DEFAULT()) \ .run() 按照上面的建议，我可以对我的数据进行所有的检查。现在目标是2倍。我可能想运行suggestionResult提供的检查我可能想要运行一个特定的检查，例如，NonNegativ

浏览 5提问于2021-06-17得票数 1

3回答

在星星之火中选择map键作为列

、

我有一个来自锡兰的数据，我有一个列，它是一个数据地图，就像 scala> df.printSchema root |-- client: map (nullable = true) | |-- key: string | |-- value: string (valueContainsNull = true) 我需要从df中选择一些列，以及从映射中选择一个特定的键作为df中的列，而不是完整的映射。假设我有一张key1 -> value1 key2 -> value2的地图..。我只需要从dataframe中的地图中选择key1作为我新的dataframe

浏览 1提问于2015-07-16得票数 3

回答已采纳

3回答

星星之火在计算大文件时崩溃。

、、、

我在Scala中有一个程序，它读取一个CSV文件，向Dataframe添加一个新列，并将结果保存为一个parquet文件。它在小文件(<5 Go)上工作得很好，但是当我尝试使用更大的文件(~80 Go)时，它总是会失败，因为它应该用这个堆栈跟踪来编写拼花文件： 16/10/20 10:03:37 WARN scheduler.TaskSetManager: Lost task 14.0 in stage 4.0 (TID 886, 10.0.0.10): java.io.EOFException: reached end of stream after reading 136445 by

浏览 0提问于2016-10-20得票数 1

1回答

reduceByKey:它是如何在内部工作的？

、、

我是Spark和Scala的新手。我对reduceByKey函数在Spark中的工作方式感到困惑。假设我们有以下代码： val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = pairs.reduceByKey((a, b) => a + b) 映射函数很清晰:s是键，它指向data.txt中的行，1是值。但是，我不知道reduceByKey在内部是如何工作的？"a“是否指向关键字？或者，"a“是否指向"s"？那么a+ b

浏览 42提问于2015-05-10得票数 66

回答已采纳

2回答

通过Spark [AnalysisException]读取嵌套JSON无法解析列

、、、

我有这样的JSON数据： { "parent":[ { "prop1":1.0, "prop2":"C", "children":[ { "child_prop1":[ "3026" ] } ] } ] } 从S

浏览 2提问于2017-05-06得票数 3

回答已采纳

3回答

Spark 2.3 Dataframe分区-想要在n个分区中对key上的数据进行分区

、、、

我需要spark(scala)数据帧分区方面的帮助。我需要将一个键列划分为n个分区，所有与相同key相关的行都应该在同一个分区中(即key不应该跨分区分布) 注意:我的密钥可能有数百万例如:假设我有下面的数据帧诸若此类正如您所看到的，许多值共享相同的键。我想将这个数据集划分为"n“个分区，其中相同的键应该在相同的分区中，并且键不应该跨分区分布。多个键可以在同一分区中，并且键不可排序。提前感谢

浏览 4提问于2020-03-13得票数 0

2回答

Scala:要检查当前的时间戳比我的dataframe中的时间戳列要大

、

假设我有一个具有时间戳列的dataframe。 Timestamp 2016-04-19T17:13:17 2016-04-20T11:31:31 2016-04-20T18:44:31 2016-04-20T14:44:01 在Scala中，我必须检查当前时间集是否大于Timestamp + 1 (即向它添加1天)列

浏览 0提问于2016-05-02得票数 2

回答已采纳

6回答

如何计算星火数据表中的列数？

、、、

我在星火中有这个数据，我想计算其中可用列的数量。我知道如何计数列中的行数，但我希望计数列数。 val df1 = Seq( ("spark", "scala", "2015-10-14", 10,"rahul"), ("spark", "scala", "2015-10-15", 11,"abhishek"), ("spark", "scala", "2015-10-16", 12,"J

浏览 0提问于2018-07-27得票数 17

回答已采纳

1回答

根据某些条件，我必须更新数据帧

、、

我刚接触pandas，我正在尝试更新基于'Id'列的'Text‘列。我的数据是这样的[(1,'One'), (0, 'Zero'), (4,'Four'), (3, 'Three')]我在数据中也有一些丢失的id，对于那些丢失的id，我必须将其留空原始数据帧 Id A Text 0 0 NaN 1 1 NaN 2 2 NaN 3 3 NaN 4 4 NaN 最终数据帧 Id A Text 0 0 Zer

浏览 9提问于2020-05-11得票数 1

回答已采纳

1回答

如何在org.apache.spark.sql.Row中添加mapPartitions列

、

我是scala的新手，请记住:) 实际上，我有三个问题如何定义函数以将其传递到df.rdd.mapPartitions，如果我想要创建新行，只需增加几个列如何在Row对象中添加几个列(或创建一个新列) 如何从已创建的RDD创建DataFrame 先谢谢你

浏览 6提问于2015-11-23得票数 25

回答已采纳

2回答

MongoDB和Spark:无法将字符串转换为TimestampType

、

我使用官方的MongoDB Spark Connector从MongoDB集合中读取Spark中的数据，代码如下： val spark = SparkSession. builder(). appName("MongoDB to SQL"). getOrCreate() val df = MongoSpark.load(spark, readConfig) df.count() readConfig是MongoDB的标准读配置，它工作得很好。我遇到的问题是，我从MongoDB获取的一些日期/时间作为字符串

浏览 12提问于2018-11-28得票数 1

1回答

为什么最大的函数抛出错误

、、

我有一个数据框架；它有多个名称为fib_1、fib_3、fib_5等的列。我正在尝试使用值Fib创建一个列max(fib_1,fib_2,fib_3)。 df.withColumn("Fib", greatest(list(filter(lambda x: x.startswith('fib_'),df.columns)))).show() 我得到了以下错误： ValueError:最大的应该至少有两列 fib_1、fib_2、fib_2的值分别为0和1。 dataframe具有不同数据类型的其他列。

浏览 1提问于2020-03-01得票数 0

3回答

如何在spark scala中将二进制字符串转换为scala字符串

、、、

我正在读取一个avro文件，其中包含一个作为二进制字符串的字段，我需要将其转换为java.lang.string以将其传递到另一个库(spark-xml-util)，如何有效地将其转换为avro。这是我到目前为止得到的代码： val df = sqlContext.read.format("com.databricks.spark.avro").load("filePath/fileName.avro") df.select("myField").collect().mkString 最后一行给出了以下例外：- Exception

浏览 0提问于2017-08-03得票数 1

回答已采纳

1回答

如何在spark中读取压缩的avro文件(.gz)？

、、、

我正在尝试使用spark读取一个gzip (.gz扩展名) avro文件，但是我得到了下面的错误。我从文档中看到，spark应该能够在没有任何额外转换的情况下读取.gz文件(可能是针对csv/文本文件)。我尝试运行下面的命令，但它给出了错误： df= spark.read.format("com.databricks.spark.avro").load("/user/data/test1.avro.gz") 错误： Traceback (most recent call last): File "<stdin>", line

浏览 44提问于2021-01-26得票数 0

1回答

如何在spark中只将DataFrame的`row`值写入文件？

、、

我有一个只有一列的dataframe，它的值是一个JSON字符串。我尝试将这些值写到一个每行只有一个记录的文件中。 scala> selddf.printSchema root |-- raw_event: string (nullable = true) 数据如下所示： scala> selddf.show(1) +--------------------+ | raw_event| +--------------------+ |{"event_header":{...| +--------------------+ only showin

浏览 0提问于2017-07-16得票数 1

回答已采纳

1回答

Apache当类型是对象数组时如何获得TypedColumn？

、、

我试图根据现有列向我的数据框架添加一个新列，其中数据是一个自定义对象数组。假设对象类型为MyObject，我试图执行如下操作： Column col = df.col("old_col"); Encoder<MyObject[]> encoder = Encoders.bean(MyObject[].class); TypedColumn<Object, MyObject[]> typedColumn = col.as(encoder); df = df.withColumn("new_col",functions.callUDF(

浏览 5提问于2017-09-19得票数 0

回答已采纳

1回答

从另一个映射类型的列中获取列scala数据帧

、、、、

我有一个dataframe，它有1列作为案例类格式，如下所示 case class FeaturizedDataset( indices: Array[String], values: Array[Float] ) 桌子是这样的 |sourceId|scoreMapping | |--------|-----------------------| |3 |{[1,3,4],[0.1,0.2,0.3]}| |4 |{[1,3,4],[0.1,0.2,0.3]}| |1 |{[1,3,4],[0.1,0.2,0.3]}| |4

浏览 0提问于2022-02-15得票数 1

1回答

如何将两个数据文件之间的多列压缩到一个字典对象中？

、、、

我有两个这样的数据处理程序： df1 colA colB 1 3 2 4 df2 colA colB A C B D 我想要创建一个字典对象，它允许我从df1映射新值并将它们转换为df2值。我能够在如下列之间创建字典对象： dict(zip(df1.colA.unique(),df2.colA.unique())) 这给了我输出： {1:'A',2:'B'} 如何为多个列创建一个用于转换新数据的大型字典？我尝试添加多个列，如下所示： dict(zip(df1.A.unique(),df2.A.uniq

浏览 0提问于2019-04-18得票数 2

回答已采纳

2回答

AWS Redshift中表的太大大小有多大？

、

目前，我们的表大小之一是5亿行(包含35列)，我们正在试图确定，在影响在该表上运行查询的性能之前，我们的表有多大？

浏览 4提问于2016-02-01得票数 2

回答已采纳

3回答

scala中的模拟spark列函数

、、

我的代码是使用monotonically_increasing_id函数的scala val df = List(("oleg"), ("maxim")).toDF("first_name") .withColumn("row_id", monotonically_increasing_id) 我想在我的单元测试中模拟它，以便它返回整数0，1，2，3，... 在我的spark-shell中，它返回所需的结果。 scala> df.show +----------+------+ |first_name|row_id|

浏览 18提问于2019-03-28得票数 3

3回答

如何将两列合并为新的DataFrame？

、、

我有两个DataFrames (Spark2.2.0和Scala2.11.8)。第一个DataFrame df1有一个名为col1的列，第二个df2也有一个名为col2的列。两个DataFrames中的行数相等。如何将这两列合并成一个新的DataFrame？我尝试过join，但我认为应该有其他方法来实现它。另外，我尝试应用withColumm，但它没有编译。 val result = df1.withColumn(col("col2"), df2.col1) 更新：例如： df1 = col1 1 2 3 df2 = col2 4 5 6 result = c

浏览 1提问于2017-11-24得票数 3

回答已采纳

1回答

如何在Spark中将时间戳列转换为毫秒长列

、

在Spark中，将Timestamp列转换为毫秒时间戳Long列的最短和最有效的方法是什么？下面是一个从时间戳到毫秒的转换示例 scala> val ts = spark.sql("SELECT now() as ts") ts: org.apache.spark.sql.DataFrame = [ts: timestamp] scala> ts.show(false) +-----------------------+ |ts

浏览 1提问于2019-06-18得票数 2

2回答

如何在Apache Spark中根据分隔符将单字符串列转换为多列

、、

我有一个包含字符串列的数据框，我想在其中创建多个列。这是我的输入数据，pagename是我的字符串列我想从它创建多个列。字符串的格式是相同的- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出中，我需要多个列- col1 to colN，值作为每列的行。以下是输出- 我如何在spark中做到这一点？Scala或Python都适合我。下面的代码创建输入数据帧- scala> val df = spark.sql(s"""select 1 as id, "a:100 b:50

浏览 23提问于2021-06-02得票数 0

回答已采纳

4回答

我应该如何索引这个MySQL数据库？

、、、

我正在创建一个网站，允许用户向公众分享特定的页面。这类似于jsbin.com如何让你创建一个你正在处理的脚本的公共url。我现在使用的基本MySQL表是： CREATE TABLE IF NOT EXISTS `lists` ( `id` int(10) NOT NULL AUTO_INCREMENT, `hash` varchar(6) NOT NULL, `created_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP, PRIMARY KEY (`id`), UNIQUE KEY `hash` (`hash`) ) E

浏览 0提问于2010-03-03得票数 4

回答已采纳

1回答

在java中激发Dataframe sql -如何转义单引号

我使用的是火花-核心，火花-sql，Spark 2.10(1.6.1)，scala-反射2.11.2。我试图过滤通过蜂巢上下文创建的数据. df = hiveCtx.createDataFrame(someRDDRow, someDF.schema()); 我试图筛选的专栏中有一个包含多个单引号。我的过滤器查询将类似于 df = df.filter("not (someOtherColumn= 'someOtherValue' and comment= 'That's Dany's Reply'&#

浏览 0提问于2018-07-17得票数 2

3回答

星火流jdbc在数据出现时读取流-数据源jdbc不支持流读取。

、、、

我正在使用PostGre作为数据库。我希望为每批获取一个表数据，并将其转换为拼花文件并存储到s3中。我试图使用spark和readStream的JDBC连接，如下所示. val jdbcDF = spark.readStream .format("jdbc") .option("url", "jdbc:postgresql://myserver:5432/mydatabase") .option("dbtable", "database.schema.table") .option(

浏览 1提问于2019-07-02得票数 5

1回答

如何在spark中合并dataframe中的列表

、、、

我有一个这样的代码 columns = ("language","users_count","status") data = (("Java",None,"1"), ("Python", "100000","2"), ("Scala", "3000","3")) rdd = spark.sparkContext.parallelize(data) df = rdd.toDF(columns) df.withColumn

浏览 59提问于2021-08-09得票数 1

回答已采纳

2回答

PySpark Dataframe基于函数返回值创建新列

、、、、

我有一个dataframe，我想根据函数返回的值添加一个新列。这个函数的参数是来自同一个dataframe的四列。 one和 one有点类似于我想要的内容，但没有回答我的问题。这是我的数据框架(列比这四列更多) + ------ + ------ + ------ + ------ + | lat1 | lng1 | lat2 | lng2 | + ------ + ------ + ------ + ------ + | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71

浏览 0提问于2018-11-22得票数 5

回答已采纳

5回答

Apache Spark Codegen阶段超过64 KB

、、、

当我在创建关于200+列的30+列上进行功能工程时，我得到了一个错误。这不是作业失败，但显示了错误。我想知道怎样才能避免这种情况。 Spark - 2.3.1 Python - 3.6 群集配置-1主机- 32 GB RAM，16核，4从- 16 GB RAM，8核输入数据-8分区拼图文件与快速压缩。我的火花-提交-> spark-submit --master spark://192.168.60.20:7077 --num-executors 4 --executor-cores 5 --executor-memory 10G --driver-cores 5 --driver-

浏览 7提问于2018-06-17得票数 18

2回答

强制intellij下载现有项目中的scala库源

、

在导入设置中签入“下载源”和“下载javadocs”时，Intellij似乎做得很好。但是，如果没有检查它们，那么我们如何在事后获得scala源呢？在下面的截图中，我确实点击了Download Sources 但是Sources for 'scala-library.jar' not found失败了。看起来Intellij应该意识到用项目中适当的scala版本来恰当地装饰scala-library.jar。不是吗？那么，除了对项目进行核武器化和重新进口之外，还有其他选择吗？进行查询的原因是，我在这个状态下有许多项目，并且希望不总是检查Download

浏览 3提问于2016-07-31得票数 12

回答已采纳

1回答

如何在spark scala中将文本文件字符串赋给字典值为一个变量，以及如何通过传递键值来提取值？

、、、

我正在从本地文件系统读取文本文件。我想将字符串转换为字典(MAP)，将其存储为一个变量。并希望通过传递密钥来提取值。我是spark scala的新手。 scala>val file = sc.textFile("file:///test/prod_details.txt"); scala> file.foreach(println) {"00000006-0000-0000": "AWS", "00000009-0000-0000": "JIRA", "00000010-000

浏览 27提问于2019-09-10得票数 0

3回答

如何在星火中从Json对象{}(复杂数据类型) DataFrame中选择密钥

、、、

我有一个json字符串： {"user_rating": {"rating_text": "Excellent", "rating_color": "3F7E00", "votes": "778", "aggregate_rating": "4.5"}} 我希望用DataFrame列创建一个DataFrame，如下所示： rating_text | rating_color | votes | aggregate_rating 当我将其编码为： val

浏览 5提问于2020-01-19得票数 2

回答已采纳