在Spark中实现SCD类型2

基础概念

SCD（Slowly Changing Dimensions，缓慢变化维度）是数据仓库中的一个重要概念，用于处理随时间变化的数据。SCD类型2是最常用的一种，它记录了维度数据的历史变化。在SCD类型2中，每个维度记录都有一个有效开始时间和结束时间，当维度数据发生变化时，会创建一个新的记录，并更新旧记录的结束时间。

优势

历史数据追踪：能够记录维度数据的历史变化，便于进行趋势分析和历史数据查询。
数据一致性：通过有效时间范围，确保查询结果的一致性。
灵活性：能够灵活地处理维度数据的变更。

类型

SCD类型2主要涉及以下几种操作：

插入新记录：当维度数据首次出现时，插入一条新记录。
更新现有记录：当维度数据发生变化时，插入一条新记录，并将旧记录的结束时间更新为当前时间。
查询历史数据：根据有效时间范围查询历史数据。

应用场景

SCD类型2广泛应用于数据仓库中，特别是在需要追踪历史数据变化的场景，例如：

客户信息管理
产品信息管理
订单历史记录

实现步骤

在Spark中实现SCD类型2，通常涉及以下步骤：

读取数据：从源表中读取维度数据。
处理变化：识别维度数据的变化，并生成新的记录。
更新历史记录：将旧记录的结束时间更新为当前时间。
合并结果：将新记录和未变化的记录合并到目标表中。

示例代码

以下是一个简单的示例代码，展示如何在Spark中实现SCD类型2：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit, when, current_timestamp

# 创建SparkSession
spark = SparkSession.builder.appName("SCD Type 2").getOrCreate()

# 读取源表数据
source_df = spark.read.option("header", "true").csv("source_table.csv")

# 处理维度数据变化
processed_df = source_df.withColumn("valid_to", lit(None)).withColumn("valid_from", current_timestamp())

# 识别新记录和更新记录
new_records_df = processed_df.filter(col("valid_to").isNull())
update_records_df = processed_df.filter(~col("valid_to").isNull())

# 更新历史记录
update_records_df = update_records_df.withColumn("valid_to", current_timestamp())

# 合并结果
final_df = new_records_df.union(update_records_df)

# 将结果写入目标表
final_df.write.mode("overwrite").option("header", "true").csv("target_table.csv")

参考链接

常见问题及解决方法

数据重复：确保在插入新记录时，没有重复的维度键。
时间戳冲突：确保有效开始时间和结束时间的正确性，避免时间戳冲突。
性能问题：对于大数据量，可以考虑使用分区表和索引优化查询性能。

通过以上步骤和示例代码，可以在Spark中实现SCD类型2，并处理维度数据的历史变化。

页面内容是否对你有帮助？

有帮助

没帮助

如何在Spark中实现渐变维度(SCD2)类型2

我们希望使用SQL Join在Spark中实现SCD2。我从Github那里得到了推荐信但这并不是很清楚。有没有人可以提供在spark中实现SCD2的示例或参考问候你，曼尼什

浏览 0提问于2019-01-06得票数 1

2回答

我从hive表/视图中选择数据，但是spark-shell或beeline没有提取字符编码，但是如果我从Ambari(直接throguh Hive)选择相同的数据，但是出于安全原因，从命令行Hive被禁用。请参考以下数据： Ambari Data: •Construction Maintenance • 524 N. Martin Luther King Jr. ‘SS-MN-BAE – Other’ ¿NPM¿ GOVT/GS SCD US ARM ¿MCCRAY,LORENZO beeline data: ?Construction Mai... ? 524 N. Martin L

浏览 19提问于2019-01-11得票数 0

回答已采纳

3回答

如何将变量传递给Spark Dataframe中的where子句

、、

我试图将一个变量SCD_filter传递给spark中的dataframe中的where子句，我收到了一个错误，但当直接传递时，它工作正常。我这样做是为了根据不同的场景动态传递这个过滤器，以供将来使用。 val SCD_filter = """currentDF.col("u_business_unit") <=> updatedDF.col("u_business_unit") | and(currentDF.col("u_operation_level_2&#

浏览 34提问于2020-06-26得票数 2

3回答

列的类型为timestamp，但表达式的类型为character

、

我正在尝试在Redshift上插入记录，试图在Redshift上实现一个SCD2，但是得到了一个错误。目标表的DDL为 CREATE TABLE ditemp.ts_scd2_test ( id INT ,md5 CHAR(32) ,record_id BIGINT IDENTITY ,from_timestamp TIMESTAMP ,to_timestamp TIMESTAMP ,file_id BIGINT ,party_id BIGINT ) 这是insert语句： INSERT INTO ditemp.TS_SCD2_

浏览 2提问于2015-09-02得票数 34

回答已采纳

1回答

GroupJoin，SelectMany，GroupBy和Sum

、、、

我试图使用GroupJoin和SelectMany在linq中做一个“左外部连接”，但是我也希望使用GroupBy和Sum来聚合结果。但是当我执行下面的代码时，我得到： System.NotSupportedException：“实体或复杂类型'...tableB‘不能在LINQtoEntiesquery.lq中构造。” Repo<tableA>().All() .Where(i => (i.Date >= dateF && i.Date <= dateT) &&

浏览 1提问于2018-02-27得票数 3

回答已采纳

2回答

在SSIS维度合并SCD组件中没有SCD0的解决方法？

、

首先，让我说，我知道，在金球的定义中有SCD0这样的东西.然而，SSIS向导为“固定属性”提供了一个条款，我有一个设计案例，其中我合理地需要被非正式地称为SCD0的东西。如果将“固定属性”列定义为SCD2，然后由于缺乏SCD0功能而不将SCD2输出连接起来作为解决办法，会有什么负面影响吗？此问题专门涉及SSIS维度合并SCD组件。

浏览 1提问于2012-01-04得票数 0

回答已采纳

2回答

火花卡桑德拉连接器:实现SCD类型1

、、、

我是卡桑德拉的新手，我想在卡桑德拉数据库中实现SCD类型-1。这个SCD Type1作业将从火花中执行。数据将作为时间序列分区数据存储。年/月/日示例：我有过去300天的记录，我的新记录可能有新的记录，也有更新的记录。我想比较过去100天更新的记录，如果记录是新的，那么它应该执行insert操作，否则更新。我不知道如何执行此操作，因此不共享任何CQL :( 样本表结构是： CREATE TABLE crossfit_gyms_by_city_New ( country_code text, state_province text, city text, gym_

浏览 1提问于2020-01-22得票数 1

回答已采纳

1回答

数据仓库中的维度表命名

、

关于数据仓库中维度表的命名约定，我有一个问题。我想知道保留名称中的维度类型是个好主意。例如，对于维度类型1，我们将得到如下内容： dim_scd1_student (它是缓慢变化的尺寸类型1)dim_scd2_teacher (它是缓慢变化的维度类型2)

浏览 1提问于2019-12-19得票数 1

回答已采纳

2回答

SCD 2表可以有非SCD列吗？

、、、、

假设有一个表模式，其中列中有a、b、c、d、start_time、end_time、current_status。我们是否可以将a、b、c作为SCD列，而不让d成为SCD逻辑的一部分，这样如果d更改，它就不会创建新的SCD行吗？

浏览 8提问于2022-01-20得票数 0

1回答

我可以在r中绘制子集的值吗？

、、

我有一项神经认知研究的数据。我们用三项稍微不同的调查来衡量结果，这些调查的范围与参与者所能获得的可能点数相同。我有长格式的数据--也就是说，我对每个参与者和变量points和outcome都有三行。变量outcome表示在给定行(scd_gb、scd_rb或scd_ab)中使用何种类型的测量点。 id outcome points 1 scd_gb 20 1 scd_rb 15 1 scd_ab 3 2 scd_gb 6 2 scd_rb 18 2 scd_ab 15 我想要创建一个散点图，在x轴上有s

浏览 1提问于2018-10-19得票数 1

回答已采纳

5回答

缓慢变化的维度-配置单元中的SCD1和SCD2实现

、、

我正在寻找配置单元(1.2.1)中的SCD1和SCD2实现。我知道在配置单元(0.14)之前加载SCD1和SCD2表的解决方法。以下是使用变通方法加载SCD1和SCD2的链接现在Hive支持ACID操作，只是想知道是否有更好的或直接的方式加载它。

浏览 0提问于2016-05-27得票数 3

1回答

在吡火花数据帧中插入数据时出错

、、、

我有一个样例吡火花代码，在这里我试图生成一个json结构。下面是代码 def func(row): temp=row.asDict() headDict = {} headDict['type'] = "record" headDict['name'] = "source" headDict['namespace'] = "com.streaming.event" headDict['doc'] = "SCD signals f

浏览 5提问于2020-08-07得票数 0

回答已采纳

1回答

大型Dim表的高效建模

、

我正在尝试使用相当大的数据集为客户活动报告构建一个性能模型。如果有人能分享任何关于最有效方法的建议，我将不胜感激。具体情况： I在SQL仓库中有一个客户基础数据集，每个月都在进行快照。每个客户记录都有一个带有EoM标记的重复的唯一ID。该表每月约有900万行，约有50个属性(人口、产品持有量等)。这是我的迪姆桌。这个数据集是相对稳定的，但是每个月我们都有50到15万新客户加入，一些人离开了。。，，我把它链接到事实表，在我的例子中，它比总客户群要小。事实表约为每月300万条记录和大约20个属性。我要做的是:创建一个具有典型星型模式的报告，按人口统计学组显示客户活动等。我还需要反映每个表中的

浏览 3提问于2021-03-10得票数 0

回答已采纳

1回答

Typescript Map<enum，set<enum>>“没有重载匹配此调用”，但我不明白为什么？

、、

我正在用Typescript创建一个棋盘游戏。我在报告中声明： export enum PieceType { PAWN, KNIGHT2, KNIGHT4, WIZARD, KING } export class Board { // ... private takeRules: Map<PieceType, Set<PieceType>> = new Map([ [PieceType.PAWN, new Set([PieceType.PAWN, PieceType.KNIGHT2, Piec

浏览 39提问于2021-01-31得票数 2

回答已采纳

1回答

将Spark处理的中间数据复制到目标S3时出现的AWS性能问题

目前我正在使用AWS电子病历进行数据处理。S3被用作着陆区域和最终处理的数据。来自S3的最终处理数据将被加载到Redshift中，以便客户运行Analytics。每日我收到100个小型KBs和MBs的小文件(最多2-3MB)。一旦源文件在着陆区可用，数据需要在15分钟内按SLA显示在Redshift中。订单表的最后一桶是800 is . SCD类型1实现了 pySpark用于处理。数据清理在2-3分钟的中完成。 Spark创建了一个用于数据处理的中间文件夹，我们从该文件夹将最终处理的数据压缩到另一个S3 Bucket。这个过程甚至对于KBs的小数据也要花费将近45分钟。代码位于下面 spa

浏览 2提问于2020-10-04得票数 0

1回答

按外键设置Server组并选择受抚养人列

、、

在SQL server中查询时，我遇到了一些性能问题。我需要按外键(academic_unit_id)分组，但也需要选择一个依赖于FK (academic_unit_name)的列。在Server中，我不能仅在同一个查询中选择academic_unit_name，必须将其聚合或分组。我想我的选择是：选择academic_unit_id (外键)和academic_unit_unit_name (依赖于FK)，然后按进行分组。 SELECT ria.COD_DOCENTE_SCD, ria.COD_CURSO_SECCION_SCD, ria.COD_ITEM_SCD

浏览 1提问于2020-10-30得票数 2

回答已采纳

1回答

在HANA视图中慢慢改变维度？

、、

我是HANA.Our的新手，org计划在SAP之上建立一个本地数据仓库。到目前为止，我们已经在SAP BODS中使用ETL方法实现了SCD类型。想知道是否可以通过利用HANA中的视图将某些类型的SCD卸载到HANA Studio上。请在这方面帮助我。

浏览 15提问于2020-02-17得票数 0

2回答

如何扩展Azure数据工厂数据流？

、、、、

我可以很容易地使用ADF UI为一个表设置SCD Type2流程，但我没有看到一种简单的方法来扩展到我们已经拥有的数千个数据源。我没有看到任何允许我编写ADF Pipeline/Dataflow并动态配置和触发它们的Java API。我查看了Azure Datalake Gen 2，Azure Databricks等。我在Azure中没有看到任何工具可以让我们取代我们内部构建的UI驱动的数据湖摄取过程。我是不是漏掉了什么？顺便说一句，我们有一个旧的数据湖应用程序，它从数千个数据源(如数据库、日志文件、web应用程序等)中摄取数据，并使用Java、Spark、Kafka等技术在HDFS (一

浏览 13提问于2020-01-11得票数 0

1回答

使用动态BINARY_CHECKSUM的T-SQL2SCD

、、、、

我正在尝试为我在T-SQL中的工作实现Type2SCD。我正在遵循这个链接中给出的很棒的方法：但是，在我的示例中，表中没有内置的BinaryCheckSum列。我被要求在运行时计算相同的值。我在下面发布了这个实现的代码(创建了一些示例数据)。有没有人可以告诉我这种方法是否能正常工作？或者我是否需要在列本身中包含DimensionCheckSum？此外，在我的例子中，我不需要代理ID。(请原谅任何语法错误) /* --CREATING A SAMPLE SCD TABLE WITH NO DATA CREATE TABLE SCD_ACCOUNT ( SCD_ACCOUNT_ID

浏览 4提问于2019-01-11得票数 0

1回答

Server如何使用Merge语句在两个以上的条件下缓慢更改维度？

、、、

我试图通过Type实现缓慢变化的维度类型2，但我不知道如何使请求工作。表列：cpf、nome、telefone_update、endereco_insert 基本的逻辑是:如果MATCH 不使用cpf发生，则必须插入记录；如果发生MATCH，但只有telefone_update字段已经更改，则不需要另一条记录，我只想更新和重写值；如果MATCH发生了，但只有endereco_insert字段发生了更改，我想添加一个新记录并更新开始日期和结束日期。到目前为止，我得到的是： insert into #dm_lucas_tst (

浏览 2提问于2017-01-23得票数 1

3回答

如何从不同的源定义表之间的关系？

、、、

我需要对两大系统进行彻底的检修。从BI的角度来看，我创建了一些基线表，“用户”、"CRM详细信息“、”电话详细信息“等等。我对理解表之间的关系是如何形成的有争议。我在“用户”表中删除了一个用户列表，我需要在“电话详细信息”表中这样做。我如何建立一种关系，它知道‘约翰史密斯’从用户=‘约翰史密斯’电话？我预计键列将在用户表中为"Id“，因此在电话表中为" UserId”，但是UserId是如何在电话表中结束的？我到目前为止的代码是： CREATE TABLE Users ( Id INT IDENTITY(1,1) NOT NULL PRIMARY KEY

浏览 5提问于2016-11-09得票数 0

回答已采纳

2回答

使用动态枢轴时PL/SQL中的错误

、、

我试图创建一个动态透视命令，因为我不知道" in“子句中需要的列的确切数量。这种方法的问题是，在执行立即执行之后，我会得到一个错误，它说数据类型是不一致的，即使期望值是匹配的。我也尝试使用sys_refcursor，但同样的错误也发生了。会是什么？ set serveroutput on; declare storage_var clob; storage_query clob; type table_model is table of varchar2(100) index by pls_integer; tabl t

浏览 2提问于2018-05-30得票数 0

3回答

T-SQL Merge语句中的T-SQL转换错误

、、

我正在尝试使用T-Sql中的Merge语句构建一个优化的缓慢变化的维度。我已经编写了以下代码来处理SCD1和SCD2更改，以及数据表中的普通插入，数据来自源表，Name和SCD2是SCD1列，Animal和SCD2是SCD2列： DECLARE @LoadingDate DATETIME SET @LoadingDate = '2012-08-20 14:23:29.827' --Handle SCD1 Changes MERGE INTO Table_2 AS DIM USING SourceTable AS SRC ON (DIM.ID1 = SRC.ID1

浏览 0提问于2012-08-20得票数 1

1回答

在sql中执行SCD的通用过程

、、、、

我在mssql服务器中有两个表，我可以通过自定义insert/update/delete和Merge语句执行scd。我想知道是否有任何通用的过程可以服务于这个目的。我们只需给它两个表，它应该是通过SCD。在server 2008中有任何选项吗？谢谢

浏览 1提问于2013-01-29得票数 1

回答已采纳

3回答

使用第二个内连接或在第二个内连接之前使用两个表的带有内部联接的SQL

、

select sld.linkid,sld.accept,scd.catid,scd.catname,scd.caturl,scd1.parentcatid from sound_link_droos sld INNER JOIN sound_cat_droos scd ON sld.catid=scd.catid OR INNER JOIN sound_cat_droos scd1 ON sld.catid=scd1.parentcatid WHERE accept = '1' AND scd.catna

浏览 1提问于2017-11-07得票数 0

回答已采纳

2回答

生成找不到实体框架

、

当我在TFS中构建我的项目时，它找不到实体fraemwork，但当我查看文件夹时，它就在那里；我得到这些错误消息； Build started 14/02/2013 15:44:50. Project "C:\Builds\1\SCD\SCD - New Test\Sources\MVC\SCD\SCD.sln" on node 1 (default targets). ValidateSolutionConfiguration: Building solution configuration "Debug|Any CPU". Project "C

浏览 2提问于2013-02-14得票数 5

回答已采纳

1回答

flex在函数之间动态改变值

、、

我有一个主mxml和2个作为classes.In的主mxml，我有一个滑块，我想在移动滑块时将滑块值作为类。 Main.MXML import First; import Second; private var my:First; privaate var scd:Second; public var sd:Date; public function init():void { my = new First(); Canvas.addChild(my.getUIComponent()); } public function dateChange():Date {

浏览 3提问于2011-06-03得票数 0

2回答

Sed/Awk对文本的操作

、、、、

我需要更改文件的最后一列： dir_/agra_2008_04_07_a 6 scd679 Voice of male dir_/agra_2008_04_07_a 7 scd680 voice off dir_/agra_2007_10_01_a 2 scd502 voice over dir_/agra_2007_10_08_a 2 scd502 voice over 对另一人： dir_/agra_2008_04_07_a 6 scd679 Voice_of_male dir_/agra_2008_04_07_a 7 scd680 voic

浏览 1提问于2015-05-08得票数 0

回答已采纳

2回答

使用SSIS维度合并SCD组件的推断成员问题

、、

我正在使用SSIS Dimension Merge SCD组件()，并且有一个同时具有SCD1和SCD2列的配置。我有设置了InferredMember标志的行，但是组件插入了新的行，并且没有在现有的推断行上重置当前标志。还有没有其他人使用这个组件，你看到它正常工作了吗？我是不是误解了？我的理解是，在InferredMember为true的情况下，SCD2列变为SCD1，这是错误的吗？在数据库中对业务键进行排序，并将排序列设置为匹配。DMSCD组件的输出直接连接到OLE DB命令/OLE DB目标组件。这已经在生产中了，而且几个月来每天都能正常工作。以下是一次运行的审核输出： Exist

浏览 1提问于2011-12-14得票数 1

回答已采纳

1回答

在实际的DWH设计中可以使用系统版本的时态表吗？

、、、、

假设我希望在DWH系统中实现SCD type2历史维度表(或者应该说是带有SCD type2属性的表)，该表目前作为一个“普通表”实现，其中包含natural key + primary surrogate key + datefrom + dateto + iscurrent附加列。哪里需要primary surrogate key才能将其用作所有事实表中的外键为了跟踪历史记录，需要datefrom + dateto + iscurrent列。现在，我想在实际的DWH设计中使用一个系统版本的时态表，但是说：时态表必须定义一个主键，以便将当前表和历史表之间的记录关

浏览 0提问于2018-05-09得票数 0

回答已采纳

1回答

我正确地实现了SCD类型1和7吗？

、、、、

SCD 1型假设我已经根据来自操作系统的以下数据构建了SCD类型1： ID | CHANNEL_CODE | NAME | TYPE 1 | A | X | 0 2 | B | Y | 1 因为，，我们丢弃了ID列，并从自然键(CHANNEL_CODE)生成SRK： SRK | CHANNEL_CODE | NAME | TYPE 11 | A | X | 0 12 | B | Y | 1 这意味着，如果发生了CHANNEL_CODE或TYPE更新，那么就永远不会改

浏览 2提问于2020-08-31得票数 1

回答已采纳

1回答

IDXGIFactory4 4：：CreateSwapChain返回DXGI_ERROR_INVALID_CALL

我是这样创造我的游泳链的 ComPtr<IDXGIFactory4> factory; CreateDXGIFactory1(__uuidof(IDXGIFactory4), (void**)&factory); DXGI_SWAP_CHAIN_DESC scd; ZeroMemory(&scd, sizeof(DXGI_SWAP_CHAIN_DESC)); scd.BufferCount = 2; scd.BufferDesc.Width = mWidth; scd.BufferDesc.Height = mHeight; scd.BufferDesc.Form

浏览 2提问于2015-09-06得票数 1

回答已采纳

3回答

在支持SCD2的表上发生SCD1更改时，应更新哪些内容

、、、、

我不确定这个问题是否在Kimball数据仓库文献中得到了回答--我找不到答案。假设您有一个表，其中包含两个支持SCD2的列和一些SCD1列。问题很简单:当SCD1列发生更改时，哪些记录会被更新？您是否更改所有记录，包括当前记录和所有历史记录？还是只更改最近的(打开的)记录？我倾向于使用“所有”，而我的所有同事都坚持使用“仅最近的”。我能给出的唯一理由是，当我在业务键列或SCD1列上运行COUNT(DISTINCT ...)时，我希望它能给出相同的结果。考虑到这一点，有两种特殊情况:如果一条记录没有当前版本，如果最近的记录超出范围并且没有新实例，该怎么办？如果我使用SCD2逻辑来准备将来

浏览 29提问于2021-05-14得票数 0

2回答

未执行for循环中的第二个条件

、

我对for循环中的一些东西很陌生。如果我调用setCurrentId(1)，则generateid将返回0(返回语句在for循环内执行)。同样，如果我使用setCurrentId(2)调用，它会返回0(返回语句，在for循环之外执行)，这是不应该的。我有一个之前创建的id为1,2,3,4的配置文件ArrayList。所以我现在用这些id.But在for循环中检查一个随机的id，它只执行第一次。 public void setCurrentId(int id) { Log.d("status scd :", "scI a " + id); th

浏览 1提问于2016-01-12得票数 1

1回答

对于维度(SCD-2或SCD-1 +一个全新维度)，哪种方法是最佳的？

、、、、

假设我有以下情况：一个维度产品，它具有一些不易变的属性(描述和直径--它们只能通过SCD-1的更改来修正)和一个属性可以是易失性的( same，它可以随着时间的变化对同一产品进行更改)。因此，当一个产品的这些易失性属性发生变化时，我需要以某种方式跟踪它们。我提出了以下两种方法：两个属性都是：继续对非易失性属性使用SCD-1。方法1：只对易失性属性在product_dim中使用SCD-2。方法2：使销售集团成为一个全新的维度，而每一个销售都将在ETL的瞬间跟踪当前的价值。这里不需要SCD-2。我是数据仓库方面的新手，我正在努力了解哪个更好，为什么更好。我的目标之

浏览 1提问于2016-09-22得票数 1

1回答

数据仓库中的时间变化

、

我对我的数据仓库使用了自顶向下的方法，所以数据仓库在3NF中，数据集市是多维的。我读过，DW应该有一个时间戳(或类似的东西)来保存历史数据。我的问题是：我是否必须将过去的数据存储在我的DW中，或者具有随时间变化的维度就足够了(从技术上讲，我在必要的地方使用类型2 SCD)。如果数据仓库必须是时变的，则：我们什么时候在自上而下的方法中使用SCD？我应该使用时间戳作为表的主键的一部分吗？谢谢!

浏览 0提问于2011-12-13得票数 0

1回答

如何在不使用SCD向导的情况下在SSIS中实现SCD类型2。当传入数据集具有相同业务密钥的多个记录时

、、、、

在SSIS中，如果传入的数据集具有相同业务密钥的多个记录，如何不用SCD向导将其加载到SCD类型2的维度表中。样本数据集 Customer ID Name Segment Postal Code 1 James Corporate 50026 2 Andrew Consumer 33311 3 Steven Consumer 90025 2 Andrew Consumer 33306 3 Steven

浏览 0提问于2019-05-10得票数 3

2回答

不同类型值的Scala数组

用Scala编写一个函数，它接受数组/元组/Seq的不同类型的值，并根据每个值中的前两个值对其进行排序： def sortFunction[T](input: Array[T]) = input(0)+ " " + input(1) 我的输入值如下： val data = Array((1, "alpha",88.9), (2, "alpha",77), (2, "beta"), (3, "alpha"), (1, "gamma",99)) 然后，我将sortFunction称为： data.sor

浏览 2提问于2016-10-14得票数 1

回答已采纳

2回答

星星之火HiveContext :插入覆盖与读取表相同的表

、、、

我想使用SCD1和SCD2在HiveContext中使用PySpark。在我的方法中，我正在读取增量数据和目标表。阅读完后，我将加入他们的行列，寻找新的方法。我正在对所有的源数据做registerTempTable。我正在尝试将最终数据集写入目标表，并且我面临的问题是，无法在从目标表读取的表中插入覆盖。请提出一些解决办法。我不想将中间数据写入物理表并再次读取它。是否有任何属性或方法来存储最终数据集，而不将依赖项保留在从中读取的表上。这样，就有可能覆盖表。请建议一下。

浏览 6提问于2017-09-10得票数 1

回答已采纳

1回答

使用SCD1和SCD2属性+ SSIS加载混合维表

、

我正在开始一项新的任务，其中我需要使用SCD1和SCD2加载混合维度表。这需要作为SSIS包来实现。有人能指导我在SSIS中处理这个问题的最好方法是什么吗?我应该使用SCD组件还是有其他方法？这方面的最佳实践是什么？对于SCD2类型，我使用Merge语句。谢谢

浏览 3提问于2010-04-18得票数 1

回答已采纳

5回答

如何在spark sql中执行多行sql

、

如何在Spark SQL中执行冗长的多行配置单元查询？如下查询所示： val sqlContext = new HiveContext (sc) val result = sqlContext.sql (" select ... from ... ");

浏览 0提问于2016-11-24得票数 14

1回答

从单个Spring批ItemReader插入和更新

我的过程将数据转换为SCD2模式。因此，源数据中的任何更新都会导致在end_date表中更新dimension & active_ind并插入新记录。我在一个ItemReader实现中配置了SQL，该实现标识源数据中更改的记录。我需要帮助/建议，如何将数据路由到两个作者，每一个更新和插入？

浏览 4提问于2017-05-08得票数 0

回答已采纳

1回答

Smark2.0-- Dataset<Row>用Java写Parquet

、

我想在Java中将数据集写入Parquet文件，我使用 Dataset<Row> ds = getDataFrame(); ds.write().parquet("data.parquet"); 此代码由火花提交命令运行，如下所示 sudo spark-submit --class getdata --master yarn --num-executors 4 --executor-cores 1 --jars guava-14.0.1.jar,hadoop-common-2.7.3.jar,hbase-client-1.3.0.jar,hbase-common-1

浏览 0提问于2017-06-15得票数 0

1回答

如何将阵列更改为用于GraphLab ItemSimilarityRecommend的SFrame

、

我已经用python编写了我的自定义成对相似性函数，它给定一个特征矩阵X(包含特征行)，找到并返回作为给定相似性度量的每个项目的k最近邻居的输出： def print_pairwise_sim_for_graphlab(X,item_ids,metric,p,knn): N = len(X) SI = DI.squareform(DI.pdist(X,metric,p)) q = -1 Y = np.zeros((N*knn,4)) for i in range(0, N): for k in range(1, knn+1): q = q + 1

浏览 2提问于2016-03-28得票数 0

1回答

SSAS & SCD2 -如何处理Dim中的IsActive行

、、

我正在使用Server 2014和2015。例如，我为员工的名字设置了一个SCD2 SK AltKey Name Gender IsActive 1 15 Sven Svensson M 1 2 16 Jo Jonsson M 1 在事实表中 SK AgentSK CallDuration DateKey 100 1 335 20160808 101 2

浏览 2提问于2016-12-16得票数 0

回答已采纳

1回答

Xerces中的模式组件设计器(SCD)？

、、、

在Xerces2页面中，更改与上一版本部分的内容：此版本还介绍了对XML组件设计器(SCD)的实验支持。我一直在研究Javadoc，在我的一生中找不到允许使用模式组件指示符的任何方法或类。我还查看了中提到的包装器，但是如果我可以直接使用Xerces API，我宁愿不使用第三方库。有人能给我指明正确的方向吗？或者，如果有人可以指出另一个模式解析java库的方向，该库支持对已解析模式的SCD查询，那将是非常感谢的(我已经尝试过XSOM，但发现它的SCD方法不可用)。

浏览 4提问于2012-08-28得票数 0

回答已采纳

1回答

SCD类型2使用SQL Server合并，如何捕获计数？

、、

新入门的SQL Server和合并。我正在编写一条MERGE语句来填充一个缓慢变化的维度表。我的示例包括类型1和类型2属性。我看到了如何使用OUTPUT捕获操作计数的示例，并且了解了如何使用OUTPUT将值传递给INSERT语句。我想要做的是采用以下代码，并以某种方式捕获更新和插入操作的计数，以便进行审计/日志记录。非常困惑地阅读关于输出和输出的文章，但根据我所能说的，我认为我不能做我想做的事情，至少不使用输出。有没有一种方法可以从下面的语句中捕获操作计数？有没有更好的方法来实现这一点？谢谢 BEGIN MERGE dbo.dimTable tgt USING dbo.stgTa

浏览 3提问于2015-02-13得票数 1

1回答

D3D11 DirectXTK Spritebatch批处理全屏问题

、、、、

我正在开发一个使用DirectXTK和Spritebatch的低分辨率2D游戏。在窗口模式下一切工作正常，但是每当我启动或切换到全屏模式时，图像都会变得模糊，以拉伸后台缓冲区以适应屏幕。我使用以下设置初始化设备和交换链： DXGI_SWAP_CHAIN_DESC scd = { 0 }; scd.BufferCount = 1; scd.BufferDesc.Format = DXGI_FORMAT_R8G8B8A8_UNORM; scd.BufferDesc.Width = width; scd.BufferDesc.Height = height; scd.BufferDesc.Refr

浏览 27提问于2021-03-07得票数 1

回答已采纳

1回答

SSIS缓慢变化的维度连接管理器

、

我想知道这是否是设计的-当我尝试配置SCD对象时，为什么我不能使用已经定义的项目级连接管理器？为什么我需要创建一个新的？项目级连接管理器的范围是否排除了SCD？

浏览 35提问于2020-04-09得票数 0

1回答

SSIS多播-按特定顺序执行

、、、

我有一个SSIS多播对象，它将我的流分割成两条路径。第一个路径:我需要更新一行；第二个路径:我需要插入一行。基本上，我是在没有使用SCD向导的情况下在SSIS中实现SCD TYPE2数据。因此，在我确定了源数据中已更改的记录后，我需要“第1条路径”使该记录过期，而“第2条路径”将更改的记录插入到目标表中。我需要一种方法，让第二个路径等待，直到第一个路径完成。(否则，第一个路径也将通过第二个路径更新新插入的行)。任何帮助都是非常感谢的。

浏览 0提问于2020-08-10得票数 1