Pyspark 3.0无法覆盖或删除托管表

文章/答案/技术大牛

发布

1回答

、、

当我尝试覆盖托管表时： lego_sets_df.write.mode("overwrite").saveAsTable('test_table') 我得到一个错误： pyspark.sql.utils.AnalysisExceptionThe associated location('file:/C:/Users/gprodanovic/PycharmProjects/pythonPySpark/spark-wa

浏览 77提问于2020-12-07得票数 0

2回答

使用Phoenix从PySpark更新HBase

、、、、

我正在尝试使用Phoenix连接器从PySpark读取和写入HBase。overwrite") \ .option("zkUrl", "localhost:2181") \我已经能够从pyspark然而，这个例子只给出了“覆盖”的模式，这意味着整个表将被覆盖。但是，我想要一个从PySpark向HBase追加数据<

浏览 5提问于2018-01-06得票数 0

1回答

如何从PySpark向SQL添加新的和覆盖现有的？

、、、、

所以我在一个SQL数据库中有一个表，我想使用Synapse (PySpark)来，添加新记录，覆盖现有记录()。但是，在PySpark中，我可以使用覆盖模式(这将删除我没有在迭代中推送的旧记录)，也可以使用附加模式(不会覆盖现有记录)。选项A：先加载旧记录，然后在PySpark中合并，然后对所有内容进行处理。缺点是我得先把整张桌子装上。选项B：删除我将要覆盖

浏览 4提问于2022-03-23得票数 0

1回答

如何在写入RDS posgtres时不丢失模式而用PySpark的JDBC覆盖数据？

、、、、

我正在使用下面的代码来实现上述功能： .format("jdbc") \ .option("dbtable", "schema.table") \ .option("password", "p

浏览 3提问于2021-05-13得票数 0

2回答

pyspark rdd/dataframe未在cassandra中自动创建表

、、、、

在检查了所有找到的源之后，datastax-spark-cassandra连接器支持在cassandra中使用scala和java中的rdd自动创建表。特别是对于pyspark，有另一个包可以完成这项工作-- 。但是即使有了这个包也不能自动创建表格。对于dataframe，我根本找不到任何选项。我刚接触pyspark和cassandra，任何帮助都是非常感谢的。尝试仅使用anguenot包作为依赖项。Spark版本: 2.4.7 Cassandra :最新docker镜像 Pyspark shell >> <e

浏览 8提问于2021-03-03得票数 2

1回答

如何使用Pyspark删除CosmosDB顶点

、、

因为我们可以使用下面的pyspark将数据读写到cosmosdb中， cfg = {"spark.cosmos.accountKeycosmosDbFormat = "cosmos.oltp" df = spark.read.format("cosmos.oltp").options(**cfg).load() 同样的，有没有办法用pyspark来删除

浏览 17提问于2021-08-12得票数 0

2回答

星星之火HiveContext :插入覆盖与读取表相同的表

、、、

我想使用SCD1和SCD2在HiveContext中使用PySpark。在我的方法中，我正在读取增量数据和目标表。阅读完后，我将加入他们的行列，寻找新的方法。我正在尝试将最终数据集写入目标表，并且我面临的问题是，无法在从目标表读取的表中插入覆盖。请提出一些解决办法。我不想将中间数据写入物理表并再次读取它。是否有任何属性或方法来存储最终数据集，而不将依赖项保留在从中读取的表上。这样，就有可能覆盖<e

浏览 6提问于2017-09-10得票数 1

回答已采纳

2回答

将函数应用于数组列中的所有值

、、、

浏览 3提问于2019-10-22得票数 6

回答已采纳

2回答

databricks错误IllegalStateException:事务日志完整性检查失败

、

我有一个需要删除、删除事务日志和重新创建的表，但是当我试图删除时，我会得到以下错误。我已经运行了修复表对此语句，并可能负责的错误，但不确定。验证失败:表大小(字节)-预期:0计算: 63233个文件数量-预期:0计算:1

浏览 1提问于2018-12-13得票数 2

2回答

星火覆盖删除红移表权限

、、

我正在尝试使用pyspark更新红移群集表的内容，如下所示： .format("com.databricks.spark.redshift") \ .option("tempdir", aws_bucket_name) \ .save() 表内容被正确保存，但是在覆盖操作之

浏览 3提问于2022-06-17得票数 0

回答已采纳

1回答

当managedobjectcontext更改时，NSFetchedResultsController不会更新

、

我做了一个程序，有时我会把一些锚移到另一个锚上。我用这个标准代码更新了一些东西 // get the moc for this thread NSManagedObjectContext *moc = [self managedObjectContext]; DLog(@"thre

浏览 0提问于2011-11-04得票数 1

回答已采纳

1回答

Spark流式数据以更新SQL Server (事务)

、

目前我有一些pyspark代码，它是从kafka主题读取数据(readStream)，我计划使用事务更新SQL Server表。流数据将具有所有三个插入、更新、删除事务。

浏览 2提问于2020-01-29得票数 0

2回答

PySaprk:星火提交无法执行所需的工作

、、、

我是PySpark的新手。我使用下面的spark-submit进程在集群中的Hive中加载一个表。/usr/hdp/2.5.0.0-1245/spark2/bin/spark-submit --driver-class-path /path/to/driver/sqljdbc4-3.0.jar --Some other staging related errors 底线:我无法使用上面的spark-submit代码创建一个H

浏览 1提问于2019-03-29得票数 2

1回答

如何从hdfs中删除客户信息

、、、

如果我的客户要离开，他希望他的个人信息应该从我的hdfs中删除。方法1:2.使用筛选逻辑从第一个表创建外部表。3.在创建第二个表时，在特定列上应用udfs进行更多列筛选Spark=>读，过滤，写还有别的解决办法吗？

浏览 6提问于2020-04-22得票数 1

2回答

删除Dataproc上的集群后，Apache检索表存储在gcs中

、、、、

我将数据存储在一个外部gcs桶中，使用pyspark作为spark数据data，并将其存储为一个分区表，使用"df.repartition(100).write.saveAsTable()“格式的”或c之后，我删除了我的集群并创建了一个新的集群。现在，我无法使用我的gcs桶使用pyspark加载分区表。我甚至将"spark.sql.warehouse.dir“配置SparkSession位置设置为以前保存表的路径。但是，即使在使用&

浏览 1提问于2020-06-03得票数 2

1回答

Core3.0中ValidateEntity的等价性

、、

似乎在包中从Microsoft.AspNetCore.Identity.EntityFrameworkCore)类中删除了保护覆盖DbEntityValidationResult ValidateEntity(最新版本(2.2.0和3.0)中的IdentityDbContext )。如何在Core3.0或Core2.2中验证数据库？

浏览 1提问于2019-11-28得票数 2

回答已采纳

3回答

如何覆盖CRM中的托管解决方案？

、

现在我在dev CRM上做了一些更改，比如从Contact entity中删除和添加一些字段。之后，我创建了新的S1导出(作为托管)。如何在CRM上完全覆盖导入的托管解决方案？谢谢

浏览 0提问于2013-05-12得票数 0

回答已采纳

1回答

保存模式(‘覆盖’)设置的星火DataFrame时，“关联位置已经存在”

、

： 'spark_no_bucket_table1') table('`spark_no_bucket_table1

浏览 35提问于2022-11-15得票数 2

回答已采纳

1回答

如何在Azure Delta湖上创建外部表(类似于Hive)

、、

如何在Azure数据湖存储上创建外部Delta表？我目前正在从事一个迁移项目(从Pyspark/Hadoop到Azure)。我找不到很多关于在Azure中创建非托管表的文档。即使在加载第二次数据前执行“如果存在删除表”，但如果在步骤4之后查询“表”，我可以看到两个数据的内容，因为我只是在“删除”表结构，而不是实际数据(Hive外部表)。Create非托管表。这是我的Da

浏览 3提问于2022-03-30得票数 0

2回答

PySpark配置单元SQL -未插入数据

、、、、

我想插入一些数据，我的表“测试”通过一个pySpark脚本(火种的python)。我首先在HUE的图形界面中为Hive创建了一个表"animals“，感谢下面的查询：于是我买了一张新桌子。我写这个脚本是为了给它添加一个新行(1，dog)：from pyspark import SparkContext from pyspar

浏览 2提问于2018-01-25得票数 0

点击加载更多