在写入dataframe - pyspark之前从表中删除记录 - 腾讯云开发者社区

文章/答案/技术大牛

发布

3回答

在写入dataframe - pyspark之前从表中删除记录

、、、、

在从dataframe向表中写入数据之前，我正在尝试从表中删除记录。这对我不起作用。我做错了什么？Goal: "delete from xx_files_tbl" before writing new dataframe to table.

浏览 172提问于2020-10-14得票数 1

回答已采纳

1回答

Azure事件集线器到Databricks，在使用中的dataframes发生了什么

、、

我一直在开发Azure事件集线器的概念证明，使用Pyspark将json数据流到Azure Databricks笔记本。在我看到的示例中，我创建了我的粗略代码，如下所示，将数据从事件集线器接收到我将用作目的地的delta表ehConf = {'eventhubs.connectionString("append") \ .option("checkpointLocation&

浏览 1提问于2019-11-12得票数 1

回答已采纳

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.sql.functionsemp.emptable th

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

s3是如何工作的？

、

我正试图使用pyspark在s3中保存数据。已经存在一堆来自上一轮火星雨的文件。在我当前的运行中，我试图用新的dataframe (它已经包含旧的数据)中的数据覆盖现有的文件。我正在使用由pyspark提供的“覆盖”模式来处理这个问题。这到底是怎么回事？在用新数据写入新文件之前，S3是否删除目录中的所有文件?如果是这样的话，当目录中有大量现有文件时，S3删除是否可

浏览 4提问于2022-03-18得票数 0

回答已采纳

1回答

使用pySpark将DataFrame写入mysql表

、、、、

我正在尝试向MySql表中插入记录。该表包含作为列的id和name。id = '103' l = [id,name] password=&#x

浏览 3提问于2017-10-04得票数 16

回答已采纳

1回答

pyspqrk sql配置单元表中存在错误数据

、、、、

我正在尝试使用Pyspark中包含25亿条记录的Hive表。我假设表中有一些格式错误的或其他“坏”数据。我使用的是spark版本1.6.2和python版本2.6.6：from pyspark.sql import从Hive CLI访问整个表似乎工作得很好。我假设有一些Spark由于某种原因无法处理的记录。我想知道，在<

浏览 1提问于2017-01-28得票数 1

1回答

有没有一种方法可以使用AWS胶水作业将“好”记录仅写入SQL Server表并返回“坏”记录？

、、、、

我正在尝试编写一个粘合(PySpark)作业，执行一些ETL，并最终将数据写入SQL Server中的一个表(在AWS Glue Catalog中定义)。在将记录写入SQL Server表时，可能有一些约束(例如:主键、外键、列类型)阻止某些记录(即“坏”记录)被写入到表中。发生这种情况时，Glue作业会抛出一个错误，并且作业会

浏览 9提问于2019-04-10得票数 0

1回答

DynamicFrame.fromDF在使用glueContext.write_from_options()写入数据库时会造成极大的延迟

、

我有一个胶水作业，其中我需要从Server的两个表中读取数据，执行一些联接/转换，并将其写回Server中的另一个新的/截断表。要写入的数据大小约为15 be。方法1-大约需要17分钟(从Server读取数据、转换、写入S3、从S3读取数据、将数据写回Server) 将数据从approx.)Perform读取到火花数据存储(在火花数据处理上的3-5秒glueContext.create_dynam

浏览 9提问于2022-10-14得票数 0

1回答

使用pyspark如何拒绝csv文件中的坏(格式错误)记录，并将这些被拒绝的记录保存到新文件中

、、

我正在使用pyspark将数据从csv文件加载到dataframe中，并且我能够在删除格式错误的记录的同时加载数据，但是我如何才能拒绝csv文件中的这些错误(错误格式)记录，并将这些被拒绝的记录保存在新文件中

浏览 11提问于2019-01-15得票数 2

回答已采纳

1回答

如何在postgres驱动程序中使用nextval()？

、、、、

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。id使用nextval('my_sequence')从序列中获取其值。PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。下面是我目前如何编写从Pysp

浏览 0提问于2018-01-21得票数 2

回答已采纳

1回答

pyspark.sql.utils.AnalysisException:引用“标题”是不明确的，可以是:标题，标题

、、、

我正在从xml中提取数据，创建数据，并以csv格式将数据写入s3路径。在编写dataframe之前，我使用show(1)打印了模式和1条数据记录。在这之前一切都很好。但是，当将它写入s3位置的csv文件时，出现了错误复制列，因为我的数据文件有两个列，即"title“和"Title”。尝试添加一个新列title2，该列将包含标题内容，并考虑稍后使用以下命令删除标题从pyspark.sql导入函数为f df=df.w

浏览 3提问于2021-12-05得票数 0

回答已采纳

1回答

Pyspark:从表中读取数据并写入文件

、、、

我正在使用HDInsight spark集群来运行我的Pyspark代码。我尝试从postgres表中读取数据，并将其写入如下所示的文件中。pgsql_df返回的是DataFrameReader而不是DataFrame。所以我无法将DataFrame写到文件中。为什么"spark.read“返回DataFrameReader。from pyspark.sql.types import * from

浏览 40提问于2020-04-24得票数 0

回答已采纳

1回答

在Databricks中使用Pyspark更新数据库表

、、、

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧<e

浏览 2提问于2020-04-20得票数 0

1回答

基于spark scala中的3个场景在hive表中插入/更新记录

、、

我有一个源表，我想根据下面的场景更新/插入数据到输出表中。源表：aaa |10 |ece |1000|svv |sas |be |0+ bbb |20want to insert data's into output table based on above scenario using either spark sql or spark scala dataframe

浏览 0提问于2020-07-03得票数 0

1回答

如何使用PySpark更新hive表中的记录？

、

下面是一个简单的例子:数据驻留在Hive表中，应用程序使用PySpark读取数据帧(比如PySpark)。例句:数据帧在列下面。Df.write.format(‘拼花’)\.mode(‘追加’)\ .saveAsTable(canonical_hive_table)Action EmpNo名称年龄工资更新4 dddd 30 4

浏览 1提问于2019-03-29得票数 2

1回答

Spark流式数据以更新SQL Server (事务)

、

目前我有一些pyspark代码，它是从kafka主题读取数据(readStream)，我计划使用事务更新SQL Server表。流数据将具有所有三个插入、更新、删除事务。

浏览 2提问于2020-01-29得票数 0

1回答

基于dashbord可见性的PySpark结构化流查询

、、

我编写了一些连接到kafka broker的示例代码，从主题读取数据并将其放入snappydata表。, Row, SparkSessionfrom pyspark.rdd import RDD from pyspark.sql.dataframe主题中读取，并在snappydata表中写入。我不明白为什么我没有在Snapp

浏览 1提问于2020-11-30得票数 0

回答已采纳

1回答

在PySpark中，为什么数据帧聚合在Kerberized源表上比相同的查询内聚合工作得更好？

、

我使用Cloudera发行版Spark 2.1.0在多节点集群上操作，它的配置单元分区是Kerberized的。我的查询相当复杂(三个表，包含两个连续聚合的嵌套子查询)，在写入PySpark数据帧之前，我在SQL中运行聚合步骤时遇到了GSSException问题。对dataframe的操作需要30到45分钟，并尝试将dataframe缓存或写入到parquet调用完整的谱系，并带有Kerberos警

浏览 3提问于2018-08-23得票数 0

1回答

Pyspark Dataframe正在复制列中以前的最高值(int或date

、、

我有一个Pyspark Dataframe，在amount列中有以下值：input dataframe 之前的最高值必须复制到后面的记录(行)中，直到在列中遇到更高的值，依此类推。amount列中的期望值为：output dataframe 有人能帮帮我吗。提前谢谢。

浏览 12提问于2021-09-17得票数 0

1回答

Pyspark删除包含10个空值的列

、

我是PySpark的新手。我只想保留至少有10个值的列现在如何提取值小于10的列名，然后在写入新文件之前删除这些列 df = spark.read.parquet(file

浏览 1提问于2019-09-28得票数 1

点击加载更多