是否有Spark SQL唯一的解决方案将强制转换应用于复杂的列(map，struct)

、

是否有Spark SQL唯一的解决方案将强制转换应用于复杂的列，如下所示： amap map<bigint,struct<dname1:string,dval1:decimal(38,18)>>我希望转换后的列看起来像下面这样(

浏览 14提问于2019-01-08得票数 0

回答已采纳

4回答

如何将空映射类型列添加到DataFrame？

、、、、

我想向dataframe添加一个新的map类型列，如下所示：| |-- key: string我试过密码：错误是： (致: S

浏览 12提问于2017-05-28得票数 10

回答已采纳

1回答

Spark HiveContext获取与配置单元客户端选择相同的格式

、

当配置单元表有像映射或数组这样的值时，如果你在配置单元客户端选择它，它们会显示为JSON，例如：{"a":1,"b":1}或[1,2,2]。在Spark中选择这些对象时，它们是DataFrame中的贴图/数组对象。如果对每一行进行字符串化，则它们是Map("a" -> 1, "b" -> 1)或WrappedArray(1, 2, 2)。当我使用Spark的HiveCo

浏览 1提问于2018-07-20得票数 0

1回答

我尝试从一个系统获取任意SQL语句作为输入，并在Spark Databricks集群中运行它。此时，我的程序知道SQL语句的备用表，并为查询加载了这些表。但是我遇到了一个问题，SQL允许您从任意列中减去一个整数，而Spark不允许。我正在尝试通过正则表达式找到一种方法，将(T1.SomeColumn - 1)替换为它的spark等效项；而不必完全剖析select语句来找出列来自哪个表以及它的

浏览 36提问于2020-08-27得票数 0

回答已采纳

1回答

Spark -将新列添加到具有与给定模式比例匹配的列的数据框

、

我想用现有列的新映射列将其附加到dataframe，这些列以给定的公共前缀开头。例如，我的输入是 {"Prefix_A": "v_A", "Prefix_B": "v_B", "Field": "v"}, {"Prefix_A": "v_A", "Prefix_B": "v_B", &qu

浏览 5提问于2019-03-09得票数 1

1回答

在Apache spark中跨执行器共享数据

、、、、

我的SPARK项目(用Java编写)需要跨执行器访问(选择查询结果)不同的表。这个问题的一个解决方案是: 表非常大，因此创建大容量的</em

浏览 0提问于2018-12-18得票数 0

回答已采纳

3回答

在spark* Dataframe中使用arraytype*

、、

我的要求是将DataFrame中的所有Decimal数据类型转换为字符串。逻辑可以很好地处理简单类型，但不能处理ArrayType。逻辑是这样的：for(dt <- df.dtypes) { df = df.withColumn(dt._1,df(d

浏览 200提问于2018-05-28得票数 0

回答已采纳

1回答

试图将json文件读入scala中的Map[String，Object]

、、

json的格式如下： "parameters": [ "name": "testInteger", "valueval df = spark.read.option("multiline","true").json(path) 我需要json文件中的数据，然后将其读入具有键"name“和指定

浏览 2提问于2020-05-22得票数 0

回答已采纳

3回答

在Apache Spark中的groupBy之后聚合Map中的所有列值

、、

RDD已经做到了，但它并不是真正的可读性，所以当涉及到代码可读性时，这种方法会更好。取这个初始的和结果的DF，包括开始的DF和我希望在执行.groupBy()之后获得的结果。toDF() 到目前为止，我尝试的是执行以下.groupBy... val resultDf = df Name .agg( selectColumn(Age),

浏览 97提问于2019-09-04得票数 1

1回答

使用numpy数组输入从python方法创建PySpark UDF，以计算和返回单个浮点值

、、、、

作为输入，我有一个包含int值的csv文件。_df.groupBy().sum().collect() 但是，我需要的是一个标准的解决方案来将这些函数转换为Spark。TypeError:无效的参数，而不是一个字符串或

浏览 4提问于2021-02-08得票数 2

回答已采纳

2回答

如何在Spark* DataFrame中添加常量列？*

、、、、

我想在DataFrame中添加一个具有任意值的列(即每一行都相同)。messages.datetime/(1000*60*5)).alias("dt"))) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColu

浏览 3提问于2015-09-26得票数 175

回答已采纳

1回答

、、

基本思想是，用户通过命名字段并将其与简单的sql片段(可以出现在select子句中的片段)映射来配置字段，组件将添加此列并将其分组到struct字段中(使用 )。稍后的处理将这些struct字段中的一些字段分组到一个数组中，此时我遇到了一个问题，即其中一个字段在一个元组中是可空的，而在另一个元组中是不可空的。由于字段分组在一个struct中，我能够提取结构类型，修改它，并使用Col

浏览 3提问于2016-04-20得票数 2

2回答

使用定义的StructType转换Spark数据帧的值

、、、

让我用一个例子来解释我的问题： import org.apache.spark.sql{Row, SparkSession} import org.apache.spark.sql.functio

浏览 7提问于2018-07-28得票数 4

回答已采纳

2回答

不使用UDF从dataframe访问scala映射

、、、、

我有一个Spark (版本1.6) Dataframe，我想添加一个包含在Scala中的值的列，这是我的简化代码：valdf2 = df.withColumn("newVal", map(col("key"))) 此代码不工作，显然我收到以下错误，因为映射在接收<

浏览 2提问于2018-05-18得票数 2

回答已采纳

3回答

如何将数组(即列表)列转换为向量

、、、、

具体地说：这就是我所期望的“适当”解决办法。我希望将列的类型从一种类型转换为另一种类型，因此我应该使用强制转换。星火是否真的用这么多列生成中间数据集，还是仅仅认为这是单个项目瞬间通过的</em

浏览 9提问于2017-02-09得票数 75

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将空映射类型列添加到DataFrame？

Spark HiveContext获取与配置单元客户端选择相同的格式

Spark从具有未知类型的任意列中减去整数

Spark -将新列添加到具有与给定模式比例匹配的列的数据框

在Apache spark中跨执行器共享数据

在spark* Dataframe中使用arraytype*

试图将json文件读入scala中的Map[String，Object]

在Apache Spark中的groupBy之后聚合Map中的所有列值

使用numpy数组输入从python方法创建PySpark UDF，以计算和返回单个浮点值

如何在Spark* DataFrame中添加常量列？*

编写涉及复杂类型的Spark-SQL查询

UDF转换为map<bigint、struct<in1:bigint、in2:string>>列以向内部结构添加更多字段。

如何将spark数据帧的列移动到同一数据帧中的嵌套列？

如何使用Apache获取大型CSV / RDD[Array[double]]中所有列的直方图？

将数据分组在火花放电中

spark和dataframes中的字段空控制

使用定义的StructType转换Spark数据帧的值

不使用UDF从dataframe访问scala映射

如何将数组(即列表)列转换为向量

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐