问Spark使用数据帧读取CSV文件并从PostgreSQL DB中查询
EN

Stack Overflow用户

提问于 2021-01-08 23:40:24

回答 1查看 53关注 0票数 0

我是Spark的新手，我正在使用下面给出的数据框代码加载一个巨大的CSV文件

Dataset<Row> df = sqlContext.read().format("com.databricks.spark.csv").schema(customSchema)
                .option("delimiter", "|").option("header", true).load(inputDataPath);

现在在数据框中加载CSV数据后，现在我想遍历每一行，并基于一些列从PostgreSQL DB查询(执行一些几何操作)。之后，我想合并一些从DB返回的字段和数据帧记录。考虑到大量的记录，最好的方法是什么？感谢您的帮助。我使用的是Java。

java

apache-spark

apache-spark-sql

回答 1

Stack Overflow用户

发布于 2021-01-08 23:51:36

像@mck也指出:最好的方法是使用join。使用spark，您可以使用DataRame Api读取外部jdbc表，例如

val props = Map(....)
spark.read.format("jdbc").options(props).load()

有关更多选项以及需要设置的属性和值，请参阅DataFrameReader scaladoc。

然后使用join合并字段

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65632059

复制

相似问题

问Spark使用数据帧读取CSV文件并从PostgreSQL DB中查询
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark使用数据帧读取CSV文件并从PostgreSQL DB中查询EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark使用数据帧读取CSV文件并从PostgreSQL DB中查询
EN