我有一个用Scala编写的Spark代码。我的代码读取xml并提取其中的所有信息。目标是将XML中的信息存储到Redshift表中。
有没有可能不使用S3直接将数据从我的Scala Spark代码发送到Redshift?
干杯!
发布于 2016-02-26 00:46:51
如果您正在使用Spark SQL,那么可以使用spark-xml将XML数据读入DataFrame,然后使用spark-redshift将其写入Redshift表。你也可以在这个question上看看。
发布于 2016-02-26 20:59:29
您可以在Python/ Java代码中使用预先准备好的SQL语句进行行级插入,但是如果要插入多条记录,效率将非常低。
https://stackoverflow.com/questions/35632518
复制相似问题