首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >重命名Scala Spark 2.0数据集中的嵌套字段

重命名Scala Spark 2.0数据集中的嵌套字段
EN

Stack Overflow用户
提问于 2016-08-23 00:10:06
回答 2查看 669关注 0票数 0

我正在尝试使用Spark 2.0重命名case类数据集中的嵌套字段。下面是一个示例,我试图将"element“重命名为"address”(保持它在数据结构中的嵌套位置):

代码语言:javascript
复制
df.printSchema
//Current Output:
root
 |-- companyAddresses: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- addressLine: string (nullable = true)
 |    |    |-- addressCity: string (nullable = true)
 |    |    |-- addressCountry: string (nullable = true)
 |    |    |-- url: string (nullable = true)

//Desired Output:
root
 |-- companyAddresses: array (nullable = true)
 |    |-- address: struct (containsNull = true)
 |    |    |-- addressLine: string (nullable = true)
 |    |    |-- addressCity: string (nullable = true)
 |    |    |-- addressCountry: string (nullable = true)
 |    |    |-- url: string (nullable = true)

作为参考,以下内容不起作用:

代码语言:javascript
复制
df.withColumnRenamed("companyAddresses.element","companyAddresses.address") 
df.withColumnRenamed("companyAddresses.element","address") 
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-08-23 00:24:46

你在这里所要求的是不可能的。companyAddresses是一个数组,而element不是一个列。它只是数组成员模式的指示器。它不能被选中,也不能重命名。

仅支持重命名父容器:

代码语言:javascript
复制
df.withColumnRenamed("companyAddresses", "foo")

或通过修改模式的单个字段的名称。在简单的情况下,也可以使用struct并选择:

代码语言:javascript
复制
df.select(struct($"foo".as("bar"), $"bar".as("foo")))

但显然这在这里是不适用的。

票数 1
EN

Stack Overflow用户

发布于 2017-04-11 22:40:59

您可以为此编写一个小的递归函数,并使用一个映射:

代码语言:javascript
复制
final JavaRDD rdd = df.toJavaRDD().map(row -> ....);


private static void flatDocument(Row input, Map<String,Object> outValues, String fqn)
{
    final StructType schema = input.schema();

    for (StructField field : schema.fields())
    {
        final String fieldName = field.name();

        String key = fqn == null ? fieldName : fqn + "_" + fieldName;

        Object buffer = input.getAs(fieldName);

        if (field.dataType().getClass().equals(StructType.class))
        {
            if (buffer != null) {
                flatDocument((Row) buffer, outValues, key);
            }
        }
        else
        {
            outValues.put(key, buffer);
        }
    }
}

但是您需要一个模式来将其转换回DataSet :/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39084167

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档