ADF映射数据流-重用单个正在运行的spark集群并行执行映射数据流

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我们在ADF中有一个复杂的ETL，通过数据流活动运行多个管道，以基于表依赖关系在数据仓库中加载多个表。作为运行具有相互依赖关系的多个管道的结果，几个数据流被作为一些顺序运行和一些并行运行的混合来执行。看起来每个并行运行的数据流都会产生一个新的spark<em

浏览 11提问于2020-08-28得票数 0

回答已采纳

1回答

多个数据流与一个转换中的所有转换

、

您好，我是Azure数据工厂的新手，并不完全熟悉后台运行的后端处理。我想知道，与将所有转换都放在一个数据流中相比，并行运行两个数据流是否会对性能产生影响。我正在尝试使用not exists转换暂存一些数据。我必须对多个表执行此操作。当我测试并行运行两个数据流时，两个数据流的集群同时出现。但我不确定这是否是将表的

浏览 20提问于2019-10-18得票数 0

1回答

是否有方法在多个映射数据流中重用单个正在运行的databricks集群？

、

在我们运行映射数据流并在所有数据流中使用相同运行的集群之前，是否有一种方法重用由web活动启动的databricks集群，而不是让所有数据流实例旋转它们自己的集群，这需要大约6分钟的时间来设置每个集群？

浏览 5提问于2020-02-03得票数 4

回答已采纳

1回答

用于excel文件处理的Databricks/ ADF / Azure函数

、、、

我没有几个excel文件需要是processed..either，将它们发送到一个基于前提的sql数据库或输出更结构化的csv文件。这些文件可以运行到100 and，并且有多个工作表。表格和数据是动态的。有些文件可能会或不会得到一些工作表。列也是相同的。此外，每个文件都有一个数据字典表，用于解释结构(工作表和相应的列)。这肯定不能仅仅通过ADF中的简单复制活动来处理。我正在考虑使用ADF与Databricks一起编

浏览 20提问于2022-03-20得票数 0

2回答

ADF管道中数据流与SQL存储过程的映射

、、、

我有一个需求，需要在ADF管道中映射数据流与SQL存储过程之间进行选择，以实现一些业务场景。现在的数据量并不太大，但在稍后阶段可能会变大。我的所有业务需求都可以很容易地通过SP实现，但是考虑到数据流在下面运行，并且可以根据需要进行扩展，所以有一点倾向于映射数据流。ADF映射数据流在ADF管道中使用时是否优于SQL存储过程？我对映射数据流<

浏览 7提问于2020-09-15得票数 3

1回答

ADF复制活动在映射中强制数据类型为字符串。

、、

我正在尝试将属性数据类型强制为带有ADF复制活动的字符串。例如，我希望将'name‘属性强制为字符串，而不是类型'any’。对于复制活动，我可以强制执行这种类型的映射吗？我被迫使用复制活动，因为我使用S3作为我的源。我知道这种类型的映射可以在ADF中使用数据流强制执行，但是<em

浏览 2提问于2022-01-17得票数 0

2回答

如何与数据工厂一起使用Azure上的火花来加载和转换包含数据的2个文件

、、

我是非常新的火花以及数据工厂资源在Azure。有人能帮我做到这一点吗？

浏览 0提问于2021-09-08得票数 1

回答已采纳

1回答

Azure数据工厂中的缓存查找属性

、、、、

我有一个需求，在其中我有一个源文件，其中包含映射数据流中的表名。基于文件中的表名-需要一个动态查询，其中列元数据以及其他一些属性从数据字典表中检索并插入到不同的接收器表中。由于输入文件中可以列出多个表(假设它是一个csv，其中只有一个列包含表名)，如果我们决定为该文件使用缓存接收器：根据此表名限制来自元数据表查询

浏览 0提问于2021-03-05得票数 0

1回答

基于Azure数据工厂的管道烟度测试方法

、

我有-前提Server>ADF->存储->ADF->Azure SQL管道。我用的是Azure DevOps。ADF管道每晚执行，如果存在ADF监视器显示错误。我想知道是否存在ADF或其他框架，用于在功能测试之前进行特定的烟雾测试等等。

浏览 6提问于2021-11-01得票数 0

回答已采纳

2回答

是否可以通过参数向md5函数传递列的动态列表

、、、

在Azure Data Factory v2中，我调用了一个来自管道的映射数据流。数据流中的源和宿连接是参数化的，因此我可以对多个源/目标组合重用管道/数据流。但是，我想在数据流中创建一个派生列，它是特定源/目标组合的适当列的md5散列。因此，我希望将列的列表传递给md5()函数，它可以在数据流运行时进行计算，并且可

浏览 4提问于2019-10-30得票数 2

1回答

从3中更改默认的HDFS复制因子是否会影响映射程序的性能？

、

有一个HDFS/Hadoop集群设置，并且正在考虑调优。有人有什么意见吗？

浏览 0提问于2011-06-29得票数 2

4回答

在蔚蓝数据工厂执行数据检查

、

我有和ADF管道，它从copies源读取数据，并将其复制到数据集中。我想做一些数据检查：如果特性全部为空，则如果上述条件不满足，则应失败。是否有一种方法可以在数据工厂中不使用批处理服务和仅在数据工厂中进行活动，或者不使用数据流。

浏览 13提问于2022-03-21得票数 1

回答已采纳

1回答

Azure数据工厂运行时在运行数据流时看起来有所不同

、

我正在尝试Azure数据工厂V2。我运行一个DB提取并将输出汇聚到Blob中。当我使用DataFlow时，生成的文件被分成几个部分，就像在Spark output样式中一样。这是因为Spark集群是运行时(我假设)。然而，当我运行“普通”管道(无数据流)时，输出似乎是不同的，例如，输出甚至可以是单个文件。所以我的问题是:流水线和数据流在运行时有区

浏览 13提问于2020-06-24得票数 0

回答已采纳

1回答

SSIS平面文件连接器不工作

我在设置的每一个平面文件连接器上都会得到以下错误。平面文件连接器是在数据流任务中从ADO.NET设置的。 数据流任务SSIS.Pipeline错误:一个或多个组件验证失败。数据流任务中的错误:在任务验证期间

浏览 1提问于2013-05-16得票数 2

回答已采纳

1回答

数据流活动Azure数据工厂中的并发文件处理

但是，当阅读以下来自微软()的文章中有关数据流的内容时，它们指出如下：通过使用通配符，管道将只包含一个数据流活动。这将比针对Blob的查找

浏览 2提问于2020-05-19得票数 1

回答已采纳

1回答

是否有可能在单个数据文件上并行运行多个聚合作业？

、、、

有没有任何方法可以并行地在单个RDD上运行多个独立的聚合作业？第一个首选是Python，然后是Scala和Java。按优先次序排列的行动方案如下：

浏览 2提问于2016-06-25得票数 0

1回答

Azure数据工厂，如果条件比完成内部活动花费的时间长得多

、

好吧，伙计们，这太奇怪了，我看不出有什么明显的东西能解释. 有人知道这意味着什么吗?是什么原因造成的？注意..。IF条件本身只是对以前设置的</e

浏览 0提问于2021-06-02得票数 2

回答已采纳

1回答

SSIS:多个源到1个目的地

、、、、

我已经找到了一些答案，但它们是相反的，围绕一个数据源和多个目的地，但我似乎找不到我的答案。从底部你可以看到我现在是怎么做的。我希望有人能给我指明正确的方向。

浏览 0提问于2019-03-23得票数 1

回答已采纳

1回答

synapse管道中的DF-Executor-OutOfMemoryError

、、、、

我有一个来自ravenDB的json，它不是有效的json，因为它有重复的列。因此，我的第一步是清理json，如果有重复的文件，为每个文件创建单独的json。我可以在示例文件中这样做，它运行成功，然后我尝试一个12MB的文件，它也可以工作。但是当我尝试一个10 DB大小的完整数据库备份文件时，它给出了错误。作业失败，原因是:群集在执行过程中遇到内存不足问题。另外，请注意数据流有一个或多个自定义分区方

浏览 12提问于2021-11-09得票数 1

1回答

我们能把数据库中的表和Azure Delta湖中的Delta表连接起来吗？我有什么选择

、、、、

我将旧的行作为增量表归档到ADLSv2中，当需要报告这些数据时，我需要将存档的数据与一些存在于前提数据库上的表连接起来。有没有一种方法，我们可以做一个连接，而不需要再水化或水化数据云？

浏览 10提问于2022-03-22得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云