我是Spark的新手,我正在使用下面给出的数据框代码加载一个巨大的CSV文件
Dataset<Row> df = sqlContext.read().format("com.databricks.spark.csv").schema(customSchema)
.option("delimiter", "|").option("header", true).load(inputDataPath);现在在数据框中加载CSV数据后,现在我想遍历每一行,并基于一些列从PostgreSQL DB查询(执行一些几何操作)。之后,我想合并一些从DB返回的字段和数据帧记录。考虑到大量的记录,最好的方法是什么?感谢您的帮助。我使用的是Java。
发布于 2021-01-08 23:51:36
像@mck也指出:最好的方法是使用join。使用spark,您可以使用DataRame Api读取外部jdbc表,例如
val props = Map(....)
spark.read.format("jdbc").options(props).load()有关更多选项以及需要设置的属性和值,请参阅DataFrameReader scaladoc。
然后使用join合并字段
https://stackoverflow.com/questions/65632059
复制相似问题