Spark Delta合并将源列值添加到目标列值

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、、

我希望目标列中的更新值是源值+目标值的和示例： %scala import io.delta.tables._// Create example delta table val dept = Seq(("Finance",10), ("Marketing",20),("Sales&

浏览 11提问于2021-08-20得票数 0

回答已采纳

2回答

当源表行中的多列与目标表中单行的相同列匹配时，从目标火花增量表中删除一行

、、、、

当行中的某些列值与Source表中的相同列值匹配时，我希望更新databricks中的目标Delta表。问题是当源表中有多个行与目标Delta表中的一行匹配时。在这种情况下，源表中两个或两个以上行的主键与delta表中的一行主键匹配。([{"id": "5001","category": "N1","star

浏览 2提问于2020-06-08得票数 0

回答已采纳

2回答

我正在尝试向Azure Blob存储中存储为增量表的数据添加新列。对数据执行的大多数操作都是upsert，有很多更新，很少有新的插入。Lake似乎只支持在insertAll()和updateAll()调用中添加新列。但是，我只在满足某些条件时进行更新，并希望将新列添加到所有现有数据中(默认值为null)。我想出了一个看起来非常笨拙的解决方案，我想知道是否有更优雅的方法。以下是我目前提出的解决方案： // Read in existing data val myData = s

浏览 63提问于2020-08-22得票数 3

回答已采纳

1回答

根据源行中的值，有条件地将一个工作表中的数据计数到另一个工作表的变量行中

、、

此数字直接对应于目标工作表中的一行，因此目标工作表具有120行，其中相同的列与源的数据列相匹配我需要做的是从源表中获取数据，并将其增量地添加到目标表中的相应列中，这样就有了一个连续的累计计数-但是将源行中的数据计数到具有相同ID的目标行中-例如，所有ID值为47的源表行将其数据仅计数到目标表的第47行中的各个列中，依此类推-因

浏览 12提问于2021-01-09得票数 1

1回答

如何使用增量DeltaLake表提高合并操作的性能？

、

我特别希望通过更新数据并将数据插入到具有大约4万亿条记录的DeltaLake基表中来优化性能。将数据添加到基表中值:注册表值年份:计算出的int

浏览 1提问于2020-09-11得票数 1

1回答

SSIS中的表达式是什么，以获得与源表到目标表中相同的日期

SSIS中的表达式是什么，以获得与源到目标相同的日期。如果我使用GETDATE()，它会给出当前日期，但我想要与源代码中提到的日期相同的日期。

浏览 0提问于2015-09-11得票数 1

1回答

如何在SSIS包中执行顺序逻辑，以便通过非空列的代码将值从源插入到目标

源表中有4列。在源表中的4列中，我只想在目标表中插入2列。要在A列和B列中插入值，现在我要在SSIS包中执行订单操作。如果第1列中有值，则在目标列A中使用该值，并将该值从第1列</

浏览 1提问于2013-09-13得票数 0

1回答

解析Python Spark中表列中存储的JSON

、、

我正在尝试解析JSON并使用Python Spark向DataFrame添加一列：其中<code>D1</code>是具有以下结构的JSON字符串：我想提取<code>D3</code>字段的值，并将其添加到<code>D5</code>的<code>D4&l

浏览 2提问于2019-03-26得票数 0

1回答

如何确保在使用成功完成的Spark作业进行重新分区的同时对完整数据进行重新分区？

、、

我的目标是从源重新分区数据，并将其保存在目标路径中。因此，我决定检查每个源和目标的不同计数是否应该匹配。我做了以下工作：这将返回False，表明在那些已完成所有任务的作业中，不同的计数在源和目标上不同源和目标是亚马逊S3上的两个不同的存储桶。可能的MVC是： def count_distin

浏览 1提问于2020-07-31得票数 1

2回答

插入时在增量表中自动递增id

、、、

我希望将列ID添加到最终的增量表中，并在每次插入数据时递增它。此列标识增量表中的每一行。有没有办法把它放在适当的位置？insert_dict, default_dict) delta_table_products.alias

浏览 0提问于2019-12-03得票数 1

1回答

尝试将一个表插入另一个表时出现问题

、、

these 2 fields are indexed so it runs fastt.account_number 现在，我知道我没有为某些类型为无符号整数的字段插入任何值，

浏览 1提问于2013-03-09得票数 1

回答已采纳

1回答

Hive/Spark* SQL查询方法*

、、、、

问题陈述：I有上的源数据，其中大约有400列，其中大约200列(我将称之为VAR1 1.200)将有可选的数据。有些行可能有V1..10的数据，而有些行可能有V34.78等等。我需要读取这些数据，并将它们分成两个文件(如果愿意的话，可以使用表格)。表A将有其他200列，表B将为表A中的行提供有关VAR1 1..200列的信息。因此，基本上我需要检查源数据集的VAR 1..200列，然后如果其中任何一个VAR有值，我需要在表B中创建一个

浏览 5提问于2017-02-17得票数 1

回答已采纳

1回答

如何确定错误发生在哪一列上？

、、

错误本身是不言自明的.但是数据文件和目标表有大约100列，其中75列作为字符串列。并且，错误没有指定错误所在的列。问题：在pyspark中，如何确定错误所在的列？错误：df = spark.read.csv("...

浏览 3提问于2022-08-07得票数 0

2回答

使用主键缓慢更改维度表的问题

、

包从源获取数据并将其插入到目标中。缓慢变化的维度任务有4列，设置为历史属性。这意味着当任何值发生变化时，它将插入一个新行。业务密钥称为PropertyID。我想纠正这一点，但我不确定正确的approcah。我尝试将一个新的INT标识列(用作SCD向导中的业务键)添加到目标</em

浏览 0提问于2018-02-28得票数 0

1回答

列的SSIS数据操作

我有excel文件的三列，即A，B，C。我想将这三列导入DB表A，B，C。下面是Mapings。Excel A --> DB Table AExcel C --> DB Table C 我希望通过操作数据即C*50来导入C列，同时将其导入数据库

浏览 4提问于2014-07-23得票数 0

回答已采纳

1回答

使用Spark的Apache方案演进

、、

我目前的情景是：df.writeTo("catalog.mydb.test2").using("iceberg").create()df.createOrReplaceTempView("myview") spark.sql(“合并为t使用(选择*从myview)作为s在t.id = s.id上匹配，然后更新SET *当不

浏览 9提问于2022-08-16得票数 1

1回答

根据值动态创建列

、、

在我们的项目中，我们使用一个ETL框架(内置在PySpark中)，它接受Spark-sql语句来转换来自源的数据并加载Hive外部表。现在，我需要读取一个表，然后选择一列的唯一值，然后动态创建一个包含这么多列的Hive表。例如，请考虑下表。survey | review 在第1天:在上面的示例中，qstns列中有3唯一值，因此将使用这些3值作为列创建输出表。Qstn_mster表的qstn列中的唯一值</e

浏览 14提问于2020-01-15得票数 0

2回答

如何区分网络流

、、、

我将流定义为三个值(sourceIP, destIP, protocol)的元组。为了快速访问，我将它们存储在c++ map中。但是，如果destinationIP和sourceIP不同，但包含相同的值，(例如)根据这些规则，我怎么能很容易地区分出流呢？

浏览 3提问于2014-03-08得票数 2

回答已采纳

1回答

如何根据列名将数据从CSV复制到目标表？

、

bar, blabye, 008, 44foo, blabye, 44我创建了一个目标表，类似于：然后，我尝试使用雪花的命令将数据从CSV复制到我

浏览 0提问于2021-05-19得票数 0

1回答

如何在asp.net 4.0中直接使用sql添加列值

、

我只想在将所有行详细信息从Excel导入Sql数据库时直接添加列值。

浏览 3提问于2014-06-04得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云