文章/答案/技术大牛

发布

社区首页 >问答首页 >将熊猫数据附加到数据库中现有的表中

问将熊猫数据附加到数据库中现有的表中
EN

Stack Overflow用户

提问于 2019-11-18 06:45:43

回答 2查看 2.5K关注 0票数 1

我想在databricks中的现有表(12列)中添加一个熊猫数据(8列)，并填充其他4列无法与None值匹配的列。我已经试过了：

spark_df = spark.createDataFrame(df)
spark_df.write.mode("append").insertInto("my_table")

它引发错误：

ParseException：“\n不匹配的输入”：‘期望(第1行，pos 4)\n\n== SQL ==\n my_table

看起来星星之火无法用无与伦比的列来处理这个操作，有什么方法可以实现我想要的吗？

python

pandas

apache-spark

pyspark

databricks

回答 2

Stack Overflow用户

发布于 2019-11-18 06:55:50

我认为最自然的操作过程是select()转换，将缺失的列添加到8列dataframe，然后是unionAll()转换来合并这两者。

from pyspark.sql import Row
from pyspark.sql.functions import lit

bigrow = Row(a='foo', b='bar')
bigdf = spark.createDataFrame([bigrow])
smallrow = Row(a='foobar')
smalldf = spark.createDataFrame([smallrow])

fitdf = smalldf.select(smalldf.a, lit(None).alias('b'))

uniondf = bigdf.unionAll(fitdf)

票数 0

Stack Overflow用户

发布于 2019-11-18 10:35:37

你能试试这个吗？

df = spark.createDataFrame(pandas_df)

df_table_struct = sqlContext.sql('select * from my_table limit 0')

for col in set(df_table_struct.columns) - set(df.columns):
    df = df.withColumn(col, F.lit(None))

df_table_struct = df_table_struct.unionByName(df)

df_table_struct.write.saveAsTable('my_table', mode='append')

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58909228

复制

相似问题

问将熊猫数据附加到数据库中现有的表中
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将熊猫数据附加到数据库中现有的表中EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将熊猫数据附加到数据库中现有的表中
EN