我正在尝试基于另一个列的值在Spark Datasets中创建一个新列。在json文件中搜索另一列的值作为键,并返回它的值,该值是用于新列的值。
下面是我尝试过的代码,但它不能工作,我也不确定UDF是如何工作的。在这种情况下,如何使用withColumn或udf添加列?
Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path");
Object obj = new JSONParser().parse(new FileReader("json path"));
JSONObject jo = (JSONObject) obj;
df = df.withColumn("cluster", functions.lit(jo.get(df.col("existing col_name")))));
任何帮助都将不胜感激。提前感谢!
发布于 2018-10-10 05:05:36
谢谢@康斯坦丁。通过您的示例,我能够更好地理解UDF。下面是我的java代码:
Object obj = new JSONParser().parse(new FileReader("json path"));
JSONObject jo = (JSONObject) obj;
spark.udf().register("getJsonVal", new UDF1<String, String>() {
@Override
public String call(String key) {
return (String) jo.get(key.substring(0, 5));
}
}, DataTypes.StringType);
df = df.withColumn("cluster", functions.callUDF("getJsonVal", df.col("existing col_name")));
df.show(); // SHOWS NEW CLUSTER COLUMN
https://stackoverflow.com/questions/52711450
复制相似问题