首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >无法理解Spark中的UDF,尤其是在Java中

无法理解Spark中的UDF,尤其是在Java中
EN

Stack Overflow用户
提问于 2018-10-09 07:43:19
回答 1查看 363关注 0票数 0

我正在尝试基于另一个列的值在Spark Datasets中创建一个新列。在json文件中搜索另一列的值作为键,并返回它的值,该值是用于新列的值。

下面是我尝试过的代码,但它不能工作,我也不确定UDF是如何工作的。在这种情况下,如何使用withColumn或udf添加列?

代码语言:javascript
复制
Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path");
        Object obj = new JSONParser().parse(new FileReader("json path"));
        JSONObject jo = (JSONObject) obj;

        df = df.withColumn("cluster", functions.lit(jo.get(df.col("existing col_name")))));

任何帮助都将不胜感激。提前感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-10 05:05:36

谢谢@康斯坦丁。通过您的示例,我能够更好地理解UDF。下面是我的java代码:

代码语言:javascript
复制
        Object obj = new JSONParser().parse(new FileReader("json path"));
        JSONObject jo = (JSONObject) obj;

        spark.udf().register("getJsonVal", new UDF1<String, String>() {
            @Override
            public String call(String key) {
                return  (String) jo.get(key.substring(0, 5));
            }
        }, DataTypes.StringType);

        df = df.withColumn("cluster", functions.callUDF("getJsonVal", df.col("existing col_name")));
        df.show(); // SHOWS NEW CLUSTER COLUMN
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52711450

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档