腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
Delta
合
并将
源
列
值
添加到
目标
列
值
scala
、
dataframe
、
apache-spark
、
azure-databricks
、
delta-lake
我希望
目标
列
中的更新
值
是
源
值
+
目标
值的和 示例: %scala import io.
delta
.tables._// Create example
delta
table val dept = Seq(("Finance",10), ("Marketing",20),("Sales&
浏览 11
提问于2021-08-20
得票数 0
回答已采纳
2
回答
当
源
表行中的多
列
与
目标
表中单行的相同
列
匹配时,从
目标
火花增量表中删除一行
pyspark
、
apache-spark-sql
、
databricks
、
azure-databricks
、
delta-lake
当行中的某些
列
值
与Source表中的相同
列
值
匹配时,我希望更新databricks中的
目标
Delta
表。 问题是当
源
表中有多个行与
目标
Delta
表中的一行匹配时。在这种情况下,
源
表中两个或两个以上行的主键与
delta
表中的一行主键匹配。([{"id": "5001","category": "N1","star
浏览 2
提问于2020-06-08
得票数 0
回答已采纳
2
回答
如何在
Delta
Lake表中添加新
列
?
apache-spark
、
databricks
、
azure-databricks
、
delta-lake
我正在尝试向Azure Blob存储中存储为增量表的数据添加新
列
。对数据执行的大多数操作都是upsert,有很多更新,很少有新的插入。Lake似乎只支持在insertAll()和updateAll()调用中添加新
列
。但是,我只在满足某些条件时进行更新,并希望将新
列
添加到
所有现有数据中(默认
值
为null)。 我想出了一个看起来非常笨拙的解决方案,我想知道是否有更优雅的方法。以下是我目前提出的解决方案: // Read in existing data val myData =
s
浏览 63
提问于2020-08-22
得票数 3
回答已采纳
1
回答
根据
源
行中的
值
,有条件地将一个工作表中的数据计数到另一个工作表的变量行中
excel
、
vba
、
excel-formula
此数字直接对应于
目标
工作表中的一行,因此
目标
工作表具有120行,其中相同的
列
与
源
的数据
列
相匹配 我需要做的是从
源
表中获取数据,
并将
其增量地
添加到
目标
表中的相应列中,这样就有了一个连续的累计计数-但是将
源
行中的数据计数到具有相同ID的
目标
行中-例如,所有ID
值
为47的
源
表行将其数据仅计数到
目标
表的第47行中的各个
列
中,依此类推-因
浏览 12
提问于2021-01-09
得票数 1
1
回答
如何使用增量DeltaLake表提高合并操作的性能?
python
、
apache-spark
我特别希望通过更新数据
并将
数据插入到具有大约4万亿条记录的DeltaLake基表中来优化性能。将数据
添加到
基表中
值
:注册表
值
年份:计算出的int
浏览 1
提问于2020-09-11
得票数 1
1
回答
SSIS中的表达式是什么,以获得与
源
表到
目标
表中相同的日期
ssis
SSIS中的表达式是什么,以获得与
源
到
目标
相同的日期。如果我使用GETDATE(),它会给出当前日期,但我想要与源代码中提到的日期相同的日期。
浏览 0
提问于2015-09-11
得票数 1
1
回答
如何在SSIS包中执行顺序逻辑,以便通过非空
列
的代码将
值
从
源
插入到
目标
ssis
源
表中有4
列
。在
源
表中的4
列
中,我只想在
目标
表中插入2
列
。要在A
列
和B
列
中插入
值
,现在我要在SSIS包中执行订单操作。如果第1
列
中有
值
,则在
目标
列
A中使用该
值
,
并将
该
值
从第1
列</
浏览 1
提问于2013-09-13
得票数 0
1
回答
解析Python
Spark
中表列中存储的JSON
python
、
pyspark
、
databricks
我正在尝试解析JSON并使用Python
Spark
向DataFrame添加一
列
:其中<code>D1</code>是具有以下结构的JSON字符串:我想提取<code>D3</code>字段的
值
,
并将
其
添加到
<code>D5</code>的<code>D4&l
浏览 2
提问于2019-03-26
得票数 0
1
回答
如何确保在使用成功完成的
Spark
作业进行重新分区的同时对完整数据进行重新分区?
python-3.x
、
apache-spark
、
amazon-s3
我的
目标
是从
源
重新分区数据,
并将
其保存在
目标
路径中。因此,我决定检查每个
源
和
目标
的不同计数是否应该匹配。我做了以下工作:这将返回False,表明在那些已完成所有任务的作业中,不同的计数在
源
和
目标
上不同
源
和
目标
是亚马逊S3上的两个不同的存储桶。可能的MVC是: def count_distin
浏览 1
提问于2020-07-31
得票数 1
2
回答
插入时在增量表中自动递增id
apache-spark
、
pyspark
、
apache-spark-sql
、
delta-lake
我希望将
列
ID
添加到
最终的增量表中,并在每次插入数据时递增它。此列标识增量表中的每一行。有没有办法把它放在适当的位置?insert_dict, default_dict)
delta
_table_products.alias
浏览 0
提问于2019-12-03
得票数 1
1
回答
尝试将一个表插入另一个表时出现问题
mysql
、
sql
、
sql-insert
these 2 fields are indexed so it runs fastt.account_number 现在,我知道我没有为某些类型为无符号整数的字段插入任何
值
,
浏览 1
提问于2013-03-09
得票数 1
回答已采纳
1
回答
Hive/
Spark
SQL查询方法
hive
、
apache-spark-sql
、
spark-dataframe
、
hiveql
、
sparkcore
问题陈述:I有上的
源
数据,其中大约有400
列
,其中大约200
列
(我将称之为VAR1 1.200)将有可选的数据。有些行可能有V1..10的数据,而有些行可能有V34.78等等。我需要读取这些数据,
并将
它们分成两个文件(如果愿意的话,可以使用表格)。表A将有其他200
列
,表B将为表A中的行提供有关VAR1 1..200
列
的信息。因此,基本上我需要检查
源
数据集的VAR 1..200
列
,然后如果其中任何一个VAR有
值
,我需要在表B中创建一个
浏览 5
提问于2017-02-17
得票数 1
回答已采纳
1
回答
如何确定错误发生在哪一
列
上?
apache-spark
、
pyspark
、
azure-sql-database
错误本身是不言自明的.但是数据文件和
目标
表有大约100
列
,其中75
列
作为字符串列。并且,错误没有指定错误所在的
列
。问题:在pyspark中,如何确定错误所在的
列
?错误:df =
spark
.read.csv("...
浏览 3
提问于2022-08-07
得票数 0
2
回答
使用主键缓慢更改维度表的问题
ssis
、
etl
包从
源
获取数据
并将
其插入到
目标
中。缓慢变化的维度任务有4
列
,设置为历史属性。这意味着当任何
值
发生变化时,它将插入一个新行。业务密钥称为PropertyID。我想纠正这一点,但我不确定正确的approcah。我尝试将一个新的INT标识
列
(用作SCD向导中的业务键)
添加到
目标</em
浏览 0
提问于2018-02-28
得票数 0
1
回答
列
的SSIS数据操作
ssis
我有excel文件的三
列
,即A,B,C。我想将这三
列
导入DB表A,B,C。下面是Mapings。Excel A --> DB Table AExcel C --> DB Table C 我希望通过操作数据即C*50来导入C
列
,同时将其导入数据库
浏览 4
提问于2014-07-23
得票数 0
回答已采纳
1
回答
使用
Spark
的Apache方案演进
apache-spark
、
iceberg
、
apache-iceberg
我目前的情景是:df.writeTo("catalog.mydb.test2").using("iceberg").create()df.createOrReplaceTempView("myview")
spark
.sql(“合并为t使用(选择*从myview)作为s在t.id = s.id上匹配,然后更新SET *当不
浏览 9
提问于2022-08-16
得票数 1
1
回答
根据
值
动态创建
列
hive
、
data-modeling
、
pyspark-sql
在我们的项目中,我们使用一个ETL框架(内置在PySpark中),它接受
Spark
-sql语句来转换来自
源
的数据并加载Hive外部表。现在,我需要读取一个表,然后选择一
列
的唯一
值
,然后动态创建一个包含这么多
列
的Hive表。 例如,请考虑下表。survey | review 在第1天:在上面的示例中,qstns
列
中有3唯一
值
,因此将使用这些3
值
作为
列
创建输出表。Qstn_mster表的qstn
列
中的唯一
值</e
浏览 14
提问于2020-01-15
得票数 0
2
回答
如何区分网络流
c++
、
dictionary
、
networking
、
packet
我将流定义为三个
值
(sourceIP, destIP, protocol)的元组。为了快速访问,我将它们存储在c++ map中。但是,如果destinationIP和sourceIP不同,但包含相同的
值
,(例如)根据这些规则,我怎么能很容易地区分出流呢?
浏览 3
提问于2014-03-08
得票数 2
回答已采纳
1
回答
如何根据列名将数据从CSV复制到
目标
表?
sql
、
snowflake-cloud-data-platform
bar, blabye, 008, 44foo, blabye, 44我创建了一个
目标
表,类似于:然后,我尝试使用雪花的命令将数据从CSV复制到我
浏览 0
提问于2021-05-19
得票数 0
1
回答
如何在asp.net 4.0中直接使用sql添加
列
值
c#-4.0
、
asp.net-3.5
我只想在将所有行详细信息从Excel导入Sql数据库时直接添加
列
值
。
浏览 3
提问于2014-06-04
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel工作表中数据核对的8个技巧,易懂易理解,方便且快捷!
深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案
SQL Server 学习之路(九)
职场人员必须掌握的数据核对技巧,简单高效,直接套用!
作业帮湖仓一体最佳实践
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券