首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Spark使用数据帧读取CSV文件并从PostgreSQL DB中查询

Spark使用数据帧读取CSV文件并从PostgreSQL DB中查询
EN

Stack Overflow用户
提问于 2021-01-08 23:40:24
回答 1查看 53关注 0票数 0

我是Spark的新手,我正在使用下面给出的数据框代码加载一个巨大的CSV文件

代码语言:javascript
运行
复制
Dataset<Row> df = sqlContext.read().format("com.databricks.spark.csv").schema(customSchema)
                .option("delimiter", "|").option("header", true).load(inputDataPath);

现在在数据框中加载CSV数据后,现在我想遍历每一行,并基于一些列从PostgreSQL DB查询(执行一些几何操作)。之后,我想合并一些从DB返回的字段和数据帧记录。考虑到大量的记录,最好的方法是什么?感谢您的帮助。我使用的是Java。

EN

回答 1

Stack Overflow用户

发布于 2021-01-08 23:51:36

像@mck也指出:最好的方法是使用join。使用spark,您可以使用DataRame Api读取外部jdbc表,例如

代码语言:javascript
运行
复制
val props = Map(....)
spark.read.format("jdbc").options(props).load()

有关更多选项以及需要设置的属性和值,请参阅DataFrameReader scaladoc

然后使用join合并字段

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65632059

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档