在Spark Scala中将变换应用于列_在spark scala中将dataframe列转换为逗号分隔值_如何在spark scala中将数组的列改为分隔列？ - 腾讯云开发者社区

scala、dataframe、apache-spark、apache-spark-sql、user-defined-functions

在Spark 2.40Scala中，将以下转换应用于dataframe中的列的最佳方式是什么？我正在尝试udf或正则表达式替换，但无法达到预期结果。下例中的column_1是一个字符串。在本例中，我先用逗号替换，然后用#替换逗号分隔符； select_df .withColumn("column_1", regexp_replace(col("column_1"), "(?<!

浏览 38提问于2021-08-06得票数 0

回答已采纳

1回答

从列到数组Scala Spark

sql、arrays、scala、apache-spark

我正在尝试在scala的Column上应用一个函数，但是我遇到了一些困难。有这样的错误required: Array[Double]现在我得到了这个错误：[error] found : Double(0.75) [error] required: org.apache.spark.sql.Column

浏览 1提问于2018-10-03得票数 1

1回答

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

java、apache-spark、apache-spark-sql、apache-spark-mllib

我试图运行简单的逻辑回归程序在火花。我得到了这个错误:我试图包含各种语言来解决问题，但这并不是解决问题。java.lang.IllegalArgumentException:需求失败:列pmi必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是DoubleTypeat org.apache.spark.sql.types.StructType$$anonfun$apply$1.apply(StructType.scala:264) at

浏览 7提问于2017-06-30得票数 2

1回答

将RDD转换为Dataframe Spark

scala、apache-spark、apache-spark-sql、spark-dataframe

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark.mllib.linalg.Vector的每个组件放在一行数据帧中的单独

浏览 2提问于2017-02-26得票数 2

2回答

访问Spark中的数组列

arrays、scala、apache-spark、apache-spark-sql、classcastexception

Spark DataFrame包含类型为ArrayDouble的列。当我试图在map()函数中将其取回时，它会抛出一个ClassCastException异常。下面的Scala代码生成了一个异常。at scala.collection.AbstractIterator.foreach(Iterator.scala:1157) at org.apache.spark.rdd.RDD(SparkContext.scala:1848

浏览 3提问于2015-10-28得票数 10

回答已采纳

1回答

如何将arrays[String]列转换为字符串列

arrays、scala、apache-spark、apache-spark-sql

在scala+spark中，我有一个包含两列Array[String]的数据 | |-- element: string (containsNull = true)我压缩了这两列以尝试过滤它，但是我不知道如何使用.filter()在

浏览 0提问于2019-08-10得票数 1

回答已采纳

1回答

StackOverflowError失败

apache-spark、pyspark、parquet、fixed-width

我计划在AWS Glue中将固定宽度转换为Parquet，我的数据大约有1600列，大约3000行。似乎当我试图写火花数据(在地板)，我得到了"StackOverflow“的问题。即使在count()、show()等情况下也会发现问题。我尝试调用cache()、重新分区()，但仍然看到这个错误。 at org.apache.spark.sql.catalyst

浏览 8提问于2021-11-10得票数 0

回答已采纳

1回答

Scala中的Spark分组贴图UDF

scala、dataframe、apache-spark

在PySpark中，这可以通过定义类型为GROUPED_MAP的Pandas UDF来实现。然而，在Scala中，我只找到了一种创建自定义聚合器(UDAF)或传统UDF的方法。我可以并行化循环，但我相信这会显示出任何改进，因为Spark已经发布了。编辑:尝试使用Futures并行化，但速度没有提高，正如预期的那样

浏览 2提问于2020-04-08得票数 2

2回答

如何在Spark* SQL的( java) DataFrame中更改列类型？*

java、apache-spark

我正在尝试使用java在spark sql中将列数据类型从long转换为int，我在scala中看到了一些示例，并进行了尝试，但这并不是wotking。

浏览 0提问于2019-01-22得票数 2

1回答

由多列和条件区分的火花是或

apache-spark

datafram1是这样的：1 101 aaa3 103 cccid no name2 106 bbb我想通过id或no来区分，所以我想要像下面这样的结果dataframe：3 103 ccc如何通过获得此结果

浏览 1提问于2021-06-09得票数 0

回答已采纳

2回答

使用spark实现散列

java、apache-spark、indexing、pyspark、hashtable

因此，我用Java语言实现了分离链接散列：https://github.com/Big-data-analytics-project/Static-hashing-closed/blob/main/Static%20hashing%20closed 下一步是使用spark实现它，我试着阅读教程，但我仍然迷失方向。

浏览 21提问于2020-11-04得票数 0

1回答

Scala和Spark: createStream时出错

scala、spark-streaming

错误时:使用Scala和Twitter4j在星火中创建一个tweet流。下面是我的代码片段：scala> val cb = new ConfigurationBuilderscala>cb.setDebugEnabled(true).setOAuthConsumerKey("**********").setOAuthConsume scala</em

浏览 1提问于2016-04-14得票数 1

回答已采纳

1回答

使用spark流解析Event Hub上的JSON消息

json、scala、apache-spark、azure-eventhub

我可以将整个JSON对象保存为增量表中的单个单元格(当我在下面的代码中将流写出df4时就会发生这种情况)，但是当我使用body.*或col(body.*)将json拆分为多个列时，我会得到一个错误。(unresolved.scala:416) at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveReferences$.$spark$sql$catalyst$analysis$Analyzer$ResolveReferences$$ex

浏览 23提问于2021-12-02得票数 0

1回答

在Scala中，如何在保持数据类型的同时从dataframe获取列？

scala

问题很简单，但我有点像Scala新手。我有以下数据：root |-- words: array (nullable= true) | |-- element: string (containsNull = true)scala> out

浏览 1提问于2017-02-15得票数 0

1回答

从Python的Scala* eqv的多列创建一个*

scala、apache-spark

我在Python中使用下面的代码来转换来自多个列的键值(Dataframe，其中有2列InternalId和ExternalId，从spark返回)，并在Python中将其合并为单列"body“。480941,"ExternalId":"a020H00001Tt7NrQAJ"}我如何在

浏览 3提问于2020-04-28得票数 0

回答已采纳

2回答

Spark scala:从utcstamp获取工作日(函数适用于特定日期，而不是整个列)

scala、apache-spark、datetime、apache-spark-sql、weekday

我有一个scala / spark dataframe，它有一个名为"utcstamp“的列，值的格式如下：2018-12-12 21:15:00 我想要获取一个新的带有星期几的专栏，并受到论坛中的thisutcstamp")))) 但是，我得到以下错误： <console>:58: error: type mismatch; required: org.apache.spark.sql.Column当我尝试将其应用于特定日期

浏览 46提问于2021-01-11得票数 0

回答已采纳

1回答

如何将映射转换为列

scala、apache-spark、spark-dataframe、apache-zeppelin

所以火花基本上是在互动模式下运行的。我收集了一张从已销毁的RDD中收集的地图：它正被用于星火变换中：因此，我尝试使用以下方法创建列：但出现以下错误： at org.apache

浏览 3提问于2016-11-14得票数 0

1回答

PySpark -使用df.select(column_list)后错误"IndexOutOfBoundsException: No group 2“*

python、apache-spark、pyspark

我有一个函数，它本质上将列(根据它们的名称和数据类型)排序为我的公司在将DataFrames保存到SQL之前所需的特定顺序。我知道这个功能起作用。它所做的就是输出一个列列表(在源DataFrame中找到)。我调用这个排序列名列表col_list，并使用它作为df.select()的参数。df = df.select(*col_list)org.apache.

浏览 11提问于2022-04-13得票数 0

1回答

子句正在抛出错误

apache-spark

我正试图将IN条款应用于在尝试上面的命令时，我得到了错误

浏览 9提问于2017-10-27得票数 0

回答已采纳

1回答

用农业火花和scala进行选择

scala、apache-spark、apache-spark-sql

).alias('time_window')) \.agg({'total_score': 'sum'})我想让它在scala语言中运行，我做了这个，我得到了，我错了，我没有取消错误，因为scala是新的 val result=df.select('*', date_format(df("time_window"),"yyyy-MM-ddhh:mm

浏览 0提问于2017-02-27得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云