在Scala中从Spark数据帧中提取Array[T]_在scala spark中从Array[Any]到Array[Double]_如何在Scala中从原始数据帧中提取子集Spark数据帧？ - 腾讯云开发者社区

scala、apache-spark、casting

下面的代码可以提取数组，但我无法将其作为Array[Double]接收。已尝试从从其他线程找到的as进行映射和强制转换，但无法解决问题。如果有任何提示，我将不胜感激。= df.filter($"time" === minTime).select($"crds").take(1)

浏览 47提问于2020-04-09得票数 1

回答已采纳

1回答

如何将列表数组合并为单列，并使其适合已有的数据帧？

scala、apache-spark

我是spark和scala的新手。请帮我弄一下这个。FINISHED val temp = tab.map(_.alias("t&q

浏览 0提问于2017-11-21得票数 0

2回答

如何在Spark (2.4) SQL -Scala2.11中避免ArrayType的自动转换

scala、apache-spark、casting、apache-spark-sql

给定Spark 2.4和scala 2.11中的代码 val df = spark.sql("""select array(45, "something", 45)""") 如果我使用df.printSchema()打印模式，我会看到spark自动转换为字符串CAST(45 AS STRING)。root |-- array(CAST(45 AS STRING), something, C

浏览 30提问于2020-01-21得票数 3

1回答

如何在Spark中从字符串而不是文件生成Dataframe？

scala、apache-spark、dataframe

目前，我正在从一个带有头的制表符分隔的文件中创建一个数据帧，如下所示。val df = sqlContext.read.format("csv") .option("delimiter", "\t") .option

浏览 0提问于2019-03-07得票数 0

1回答

将整列数组合并为一个数组

scala、apache-spark、spark-dataframe

我有了这个数据帧，我想把数据列中的所有数组组合成一个大数组，独立于DataFrame。of DF into one arrayvar offset = 0 Array.copy(t, 0, result, offset, t.length) offs

浏览 1提问于2016-08-23得票数 0

回答已采纳

1回答

使用java读取spark sql中的复杂json

java、spark-streaming

52b213b38594d8a2be17c780" }, "approvalfy" : 1999, "board_approval_month" : "November", "boardapprovaldate" : "2013-11-12T00:00:00Z", "borrower" : "FEDERAL DEMOCRATIC REPUBLIC OF ETHIOPIA", "closingdate" : &

浏览 0提问于2016-04-06得票数 1

1回答

如何在Spark SQL中为posexplode列提供别名？

sql、apache-spark、apache-spark-sql

当我在Spark SQL中使用posexplode()函数时，下面的语句生成"pos“和"col”作为默认名称 scala> spark.sql(""" with t1(select to_date(||2019-01-01|2019-01-31|2 |7 | +----------+----------+---+---+ 在spark.sql在

浏览 55提问于2019-01-22得票数 5

回答已采纳

3回答

Spark 1.5.2: org.apache.spark.sql.AnalysisException:未解析的运算符联合；

apache-spark

我有两个数据帧df1和df2。|-- element: string (containsNull = true) at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$class.failAnalysis(CheckAnalysis.scala:37) at org.apache.spark.sql.cata

浏览 0提问于2016-07-29得票数 16

回答已采纳

1回答

无法将CSV文件加载为spark中的数据

apache-spark-sql、apache-spark-dataset

我试图在数据帧中加载一个CSV文件，我的目标是将第一行显示为CSV文件的列名。但是在使用下面的代码时，我得到了错误 at scala.collection.TraversableLike$class.filterNot(TraversableLike.scala:278)def main(args : Array[String]): Un

浏览 0提问于2018-12-31得票数 2

回答已采纳

3回答

字符串列包含通过spark scala进行精确匹配的单词

scala、apache-spark、apache-spark-sql

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike

浏览 1提问于2021-02-12得票数 0

1回答

spark-cassandra-connector -从Dataframe创建表格- StructType？

apache-spark、cassandra、spark-cassandra-connector

我正试着从Spark数据帧中写给Cassandra。当我有一个简单的数据帧模式时，如示例中所示，它可以工作： |-- id: string (nullable = true)但是，当我尝试编写包含StructTypes的数据帧时，其模式如下： |-- crawl: struct (nullable = true) | |-- id:

浏览 4提问于2016-06-27得票数 1

1回答

从ES中获取数据并保存到HDFS作为Avro (火花)

scala、apache-spark、rdd

我对Spark和Scala还不熟悉，所以我有一个非常基本的问题。我有Spark1.5.2和Scala2.10.4。我创建了一个配置，允许我在使用spark-shell命令启动--config时直接从ES中以JSON的形式获取一些数据；我还导入了elasticsearch-hadoop的--jar。就会得到以下结果： res9: Class[_ <: org.apache.spark.rdd.RDD[(Strin

浏览 3提问于2017-05-11得票数 0

回答已采纳

1回答

从文件系统中填充Properties对象

scala、dataframe、apache-spark、apache-spark-sql、databricks

TL:DR或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？尝试从"dbfs:/“或"/dbfs”读取文件时，在使用scala.io.Source库时找不到文件。我猜Source无法识别Databricks文件系统(？)的URI。不过，我能够将该文件读入Spark，但

浏览 4提问于2020-12-29得票数 1

回答已采纳

1回答

写入Parquet/Kafka:线程"dag-scheduler-event-loop“java.lang.OutOfMemoryError异常

scala、out-of-memory、spark-dataframe、apache-spark-mllib、cloudera-cdh

我正在尝试修复在我的spark设置中看到的一个外存问题，在这一点上，我无法得出一个具体的分析，为什么我会看到这个。在将数据帧写到parquet或kafka时，我总是会遇到这个问题。我的数据帧有5000行。我的数据帧总大小约为10 My，划分为12个分区。在写入之前，我尝试使用repartition()创建48个分区，但即使我在没有重新分区的情况下写入，也会看到这个问题。在发生此异常

浏览 0提问于2017-09-14得票数 0

1回答

如何从scala星火壳Array[String]读取字符串

scala

我有一个XML文件，我正试图使用Scala通过Spark处理该文件。我被困在一个需要使用Scala的ArrayString来阅读fileRead: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[10] at filter at <console>:25 scala> fltrLines.

浏览 1提问于2015-12-08得票数 2

回答已采纳

3回答

如何从多个列表创建pyspark dataframe

python、pyspark、apache-spark-sql

我想将两个列表转换为pyspark数据帧，其中列表是各自的列。

浏览 0提问于2018-10-13得票数 3

回答已采纳

1回答

将Spark数据帧写入红移:保存StructField(user_agent，ArrayType(StringType，true)，true)

apache-spark、dataframe、amazon-redshift

我有一个数据帧，该模式包含一个ArrayString字段：(an excerpt) | |-- element: string我得到一个错误： java.lang.IllegalArgumentException: Don't<

浏览 0提问于2016-06-04得票数 1

0回答

无法在spark/pyspark中创建数组文字

apache-spark、pyspark

我在尝试根据要过滤的两列项目列表从dataframe中删除行时遇到了麻烦。例如，对于此数据帧： at org.apache.spark

浏览 2提问于2017-01-07得票数 12

回答已采纳

1回答

Spark中区分大小写的拼图模式合并

apache-spark、parquet

我正在试着用Spark加载和分析一些镶木地板文件。我使用schemaMerge加载文件，因为较新的文件有一些额外的列。此外，一些文件的列名是小写的，而其他文件的列名是大写的。模式合并被委托给spark sql的StructType merge方法。据我所知，该方法只能以区分大小写的方式工作。在内部，它使用映射按名称查找字段，如果大小写不匹配，它会将其解释为新字段。稍后，当检查模式中的重复项时，区分大小写的配置会被考虑在内，我们最终会得到重复的列。这会导致 org.apache.spark.sql.AnalysisExcep

浏览 23提问于2019-07-31得票数 4

回答已采纳

1回答

Apache Spark* 2.3.0 -如何将两个array<string>合并成一个array<string>*

apache-spark、apache-spark-sql、spark-java

将两个array<string>合并成一个array<string>在2.4.x版本中是可能的，也很容易，但在2.3.0版本中找不到这样做的方法。输入-预期输出-有人能解释一下如何使用Java在Spark中实现这一点吗？

浏览 9提问于2021-09-22得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云