首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Azure数据工厂与工厂

Azure数据工厂与工厂
EN

Stack Overflow用户
提问于 2018-01-11 10:21:52
回答 5查看 988关注 0票数 6

我目前正在使用数据工厂构建一个Azure数据湖,并且正在寻求一些关于拥有多个数据工厂而不是只有一个数据工厂的建议。

我目前有一个数据工厂,即从一个EBS实例中为一个企业下的一个特定公司采购数据。不过,未来可能会有其他EBS实例,以及其他公司(使用其他应用程序作为源)合并到工厂中-我认为图表可能会变得有点混乱。

我到处搜索,我找到了这个站点,它建议将所有内容都保存在一个数据工厂中,以便重用链接的服务。我想这是一件好事,然而,由于我已经为一个数据工厂编写了构建脚本,因此很容易再次构建链接的服务,以指向相同的数据湖。

https://www.purplefrogsystems.com/paul/2017/08/chaining-azure-data-factory-activities-and-datasets/

只有一个数据工厂实例的优点:

一旦

  • 可以在一个逻辑示意图

中查看整体谱系,

  • 就只需创建数据集和关联服务

缺点

随着时间的推移,

  • 可能会变得混乱
  • 可能会变得非常庞大,甚至可以找到您在

之后正在寻找的管道

有没有人有一些Azure数据工厂的大型部署,可能会带来数千个数据源,将它们混合在一起并进行转换?会有兴趣听听你的想法。

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2018-01-11 21:12:17

我的建议是只有一个,因为这样可以更容易地配置多个集成运行时(网关)。如果您决定拥有多个数据工厂,请考虑到一台pc只能安装一个集成运行时,并且集成运行时只能注册到一个数据工厂实例。

我认为你列出的缺点都是通过命名规则来解决的。如果你将它们命名为: Pipeline_Database namedb schematable name,那么找到你想要的管道并不是一件很麻烦的事情。

我有一个有数千个数据集和管道的项目,它并不比较小的项目更难处理。

希望这能有所帮助!

票数 3
EN

Stack Overflow用户

发布于 2018-06-10 05:52:32

我最初同意将集成运行时绑定到单个数据工厂是一种限制,但我怀疑它不再或即将不再是一种限制。

March 13th update to AzureRm.DataFactories中,有一条注释声明“允许跨数据工厂共享集成运行时”。

我认为这将取决于数据工厂的复杂性,以及各种源和目标之间是否存在相互依赖关系。

尤其是UI (在V2中更是如此)使得管理大型数据工厂变得很容易。

然而,,如果您选择ARM部署技术,那么即使是不太复杂的数据工厂,数据工厂也可能很快变得笨拙。从这个意义上说,我建议将它们分开。

当然,您可以通过将ARM模板分解为嵌套部署、ARM参数化或数据工厂V2参数化,直接使用SDK和单独的文件,来缓解人们提到的可维护性问题。或者甚至只使用UI (现在支持git :-) )

也许更重要的是,特别是当您提到独立的公司来源时;可能听起来数据并不相关,如果不相关-是否应该将其隔离以避免任何编码错误?或者甚至可以将数据工厂的角色和职责分开。

另一方面,如果数据是相互关联的,则将其放在一个数据工厂中会使事情变得容易得多,因为它允许数据工厂管理数据依赖项并一次性重新运行失败的切片。

票数 3
EN

Stack Overflow用户

发布于 2019-04-28 09:02:59

在3月份发布之后,您可以链接不同工厂之间的集成运行时。

另一项工作是为各种管道和数据集创建不同的文件夹

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48198927

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档