问无法理解Spark中的UDF，尤其是在Java中
EN

Stack Overflow用户

提问于 2018-10-09 07:43:19

回答 1查看 363关注 0票数 0

我正在尝试基于另一个列的值在Spark Datasets中创建一个新列。在json文件中搜索另一列的值作为键，并返回它的值，该值是用于新列的值。

下面是我尝试过的代码，但它不能工作，我也不确定UDF是如何工作的。在这种情况下，如何使用withColumn或udf添加列？

Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path");
        Object obj = new JSONParser().parse(new FileReader("json path"));
        JSONObject jo = (JSONObject) obj;

        df = df.withColumn("cluster", functions.lit(jo.get(df.col("existing col_name")))));

任何帮助都将不胜感激。提前感谢！

dataset

user-defined-functions

java

apache-spark

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-10 05:05:36

谢谢@康斯坦丁。通过您的示例，我能够更好地理解UDF。下面是我的java代码：

        Object obj = new JSONParser().parse(new FileReader("json path"));
        JSONObject jo = (JSONObject) obj;

        spark.udf().register("getJsonVal", new UDF1<String, String>() {
            @Override
            public String call(String key) {
                return  (String) jo.get(key.substring(0, 5));
            }
        }, DataTypes.StringType);

        df = df.withColumn("cluster", functions.callUDF("getJsonVal", df.col("existing col_name")));
        df.show(); // SHOWS NEW CLUSTER COLUMN

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52711450

复制

相似问题

问无法理解Spark中的UDF，尤其是在Java中
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法理解Spark中的UDF，尤其是在Java中EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法理解Spark中的UDF，尤其是在Java中
EN