数据中台和湖仓一体

数据中台和湖仓一体是一种数据处理和存储的架构模式，它将数据仓库（Data Warehouse）和数据湖（Data Lake）结合在一起，以提供更高效、灵活和可扩展的数据处理能力。数据中台和湖仓一体的主要优势包括：

提供更全面的数据视图：数据中台和湖仓一体可以将多个数据源整合在一起，提供更全面的数据视图，以支持更深入的数据分析和决策。
更快的数据处理速度：数据中台和湖仓一体可以利用云计算和大数据处理技术，实现更快的数据处理速度，以支持实时数据分析和决策。
更高的数据可靠性和可用性：数据中台和湖仓一体可以利用数据冗余和数据备份技术，实现更高的数据可靠性和可用性，以确保数据的安全性和可靠性。
更灵活的数据处理能力：数据中台和湖仓一体可以利用云计算和大数据处理技术，实现更灵活的数据处理能力，以支持多样化的数据处理需求。

数据中台和湖仓一体的应用场景包括：

大数据分析和决策支持：数据中台和湖仓一体可以支持企业进行大规模数据分析和决策，以提高企业的竞争力和运营效率。
数据驱动的产品和服务开发：数据中台和湖仓一体可以支持企业进行数据驱动的产品和服务开发，以提高产品和服务的质量和用户体验。
实时数据分析和决策支持：数据中台和湖仓一体可以支持企业进行实时数据分析和决策，以提高企业的应对突发事件的能力。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云数据仓库：https://cloud.tencent.com/product/dw
腾讯云数据湖：https://cloud.tencent.com/product/datalake
腾讯云大数据分析：https://cloud.tencent.com/product/bigdata
腾讯云数据处理：https://cloud.tencent.com/product/data
腾讯云数据传输：https://cloud.tencent.com/product/dataexchange
腾讯云数据安全：https://cloud.tencent.com/product/datasecurity
腾讯云数据存储：https://cloud.tencent.com/product/datastorage
腾讯云数据分析：https://cloud.tencent.com/product/datapro
腾讯云实时数据分析：https://cloud.tencent.com/product/stream
腾讯云数据可视化：https://cloud.tencent.com/product/datav

以上是关于数据中台和湖仓一体的相关信息，如果您有其他问题，请随时提问。

页面内容是否对你有帮助？

有帮助

没帮助

Azure应用程序无法访问数据湖存储中新创建的文件

、、

我编写了控制台应用程序来监控/分析Azure数据湖存储中的文件。我在Azure活动目录中创建了一个应用程序来访问azure资源。我遵循了给出的所有步骤，让能够访问蔚蓝数据湖存储上的应用程序。我提供了对父目录和数据湖存储的所有幼童文件夹/文件的访问权限。现在，我可以通过我的代码访问文件。我试图通过在代码中使用DataLakeStoreFileSystemManagement Client获取USQL作业在数据湖存储中生成的文件的修改时间和过期时间。我正在使用微软提供的.NET API进行数据湖分析和数据湖存储。我正在为我提供访问的文件获取所有这些信息。但是，当usql作业在蔚蓝数据湖存储中添

浏览 1提问于2018-01-30得票数 0

1回答

QlikView和Hadoop与Kerberos在同一服务器上

、、

我有一个很大的疑问。在同一台服务器上，我运行了一些qlikview的加载器和hadoop中的一个数据湖。我的qlikview加载器使用impala连接器(您可以在qlikmarkt中找到的连接器)查询数据湖的一些“表”，但我们将在数据湖中使用kerberos安全性。有人知道我是否需要cloudera为kerberos提供的特殊连接器吗？我认为kerberos可能不会影响本地，但我不知道，有什么想法吗？感谢所有人

浏览 0提问于2016-04-07得票数 1

1回答

直方图--与断点相等的数据

、

R中的默认直方图柱是右闭合(左开)间隔，因此与断点相等的数据落入左柱。我想知道是否可以将这些数据同时计算到左边和右边的箱子里(一半在左边的箱子里，一半在右边的箱子里)。非常感谢!

浏览 3提问于2014-05-18得票数 1

2回答

在Matplotlib中绘制的列表的移位x值

、、

在对列表(大小为1024)执行快速傅立叶变换和FFTShift之后，我现在正在尝试绘制输出。在尝试以我想要的方式准确地显示数据时，我遇到了一些问题。当前，x轴显示仓位编号。在FFT移位之后，频率0 Hz处于仓位编号512，并且每个仓位值额外的2000/1024 Hz，因此仓位0应为-1000 Hz，仓位1023应为+1000 Hz；仓位1应为-998.05 Hz，仓位1022应为+998.05，依此类推。我尝试过使用xticks来显示以下内容： xlocs, xlabs = plt.xticks() plt.xticks([0,(len(a)*0.25),(len(a))/2,(

浏览 0提问于2012-11-16得票数 1

回答已采纳

2回答

数据湖中的数据保留策略

我是这个Azure数据湖世界的新手。我正在寻找任何必要的先决条件和注意事项，以便使用蔚蓝数据湖.我找到了一个很好的链接，并发现安静有用。现在，我不确定的一件事是数据保持策略在数据湖中。有些人说数据不应该从数据湖中删除/清除，而很少有人有不同的看法。因此，在任何数据湖中，对于数据保留策略(归档、清除)，我们是否需要遵循特定和基本的考虑？我知道用例将是这方面的决定因素，但在作出决定之前，是否有任何高层次的考虑因素，是我的问题。谢谢,

浏览 1提问于2017-02-19得票数 2

回答已采纳

1回答

Kappa体系结构是否使用数据湖？

、、、、

Kukreja在“Apache、Delta湖和Lakehouse的数据工程”中说，Kappa体系结构没有数据湖。微软在 (见图)中提到了一家“长期商店”，但没有透露它的实际情况。它使用这些数据来“重新计算”。对我来说，这是一个数据湖。 Kappa体系结构是否使用数据湖？

浏览 10提问于2022-07-21得票数 0

回答已采纳

1回答

正确的笔记本电脑进行数据分析？(使用大数据湖)

、

使用大数据湖的数据可视化是否需要一台功能强大的笔记本电脑？我被授予了P15学位，因为我的老板认为我的工作需要大量的计算，这通常是完全过分的。但我以前从未和大数据湖合作过，所以我不知道该怎么跟他说。目前的计划是保持Python (Dash)中的所有内容。我对Dash没有太多的经验，但我的计划是从内部服务器执行Dash仪表板，所以我的笔记本电脑不会进行任何计算。在这种情况下，我看不出我的笔记本什么时候会做任何繁重的计算？

浏览 0提问于2022-03-28得票数 1

1回答

用hadoop进行弹性搜索

、

目前，在我的组织中，我们持有弹性搜索中的半结构化数据，我们使用查询进行快速文本搜索和聚合，但是我们有其他产品在其他数据库中，所以我们希望将所有的数据放在像HDFS这样的数据湖中。因此，如果我使用HDFS作为一个数据湖来保存原始数据，那么如何使用弹性搜索呢？我指的是在使用之前的弹性搜索索引数据，那么是否可以将数据保存在数据湖中，然后弹性搜索就可以直接从数据湖查询数据，而不需要将数据存储在弹性中？或者我会把数据保存在数据湖中，然后处理它，然后再用弹性存储它，这样它就可以索引它了吗？总之，我想知道弹性和hadoop干涉的概念。

浏览 3提问于2022-11-21得票数 0

2回答

从数据湖中检索数据到分析系统

、、

我们在Hadoop文件系统中创建了一个新的数据湖。数据以ORC的形式存储。目前分析系统直接连接到数据湖来读取这些ORC文件。有没有办法在数据湖和分析系统之间创建一个中间层来服务数据？

浏览 16提问于2018-10-04得票数 0

2回答

列名映射错误。

、、、、

我试图使用azure数据工厂从on数据湖中提取/加载数据到蔚蓝数据湖。我只是想查询一下所有的列。我的水槽是蔚蓝数据湖Gen2。但是我的列名在源和库上都是错误的。我在on-prem数据湖中的列名类似于user_id、lst_nm等，但在Azure中，它就像、等，这里的user_tbl是我的表名。我不希望将表名添加到列中。

浏览 14提问于2022-02-23得票数 0

3回答

AWS湖形成: s3://abc/的湖形成许可不足

、、

我正在尝试从AWS湖编队控制台设置一个数据集。我按照下面的资源进行同样的操作：但在创建db的第二步中，输入db名称并选择s3位置后，我将得到对s3的湖形成许可不足：我检查了我的权限，我的管理角色映射到我的帐户，允许所有(*) 有人能帮上忙吗?实际问题是什么！

浏览 0提问于2020-09-15得票数 10

2回答

如何使用Azure作为Azure ML的输入数据集？

、

我正在移动数据到Azure数据湖存储和处理它使用Azure数据湖分析。数据是XML格式的，我正在通过读取它。现在，我想从Azure中访问这些数据，看起来Azure数据湖存储目前还不受直接支持。用Azure ML使用Azure的可能方法是什么？

浏览 2提问于2016-03-21得票数 0

回答已采纳

2回答

使用数据湖分析复制数据- U-SQL

、、

我有以下问题。我需要从ADLS(Azure数据湖存储)源复制到接收器ADLS，但只复制最新的文件。每小时，到达源的一个.csv文件，这个文件必须被复制到宿数据湖。例如： event: Hour1 - file_01.csv到达源。任务:复制file_01.csv以接收数据湖。event: Hour2 - file_02.csv到达源。任务:复制file_02.csv以接收数据湖。诸若此类。有没有办法创建一个基于事件的触发器(新文件到达源代码)？这是我的第一个想法。另一种方法是创建一个作业，由Azure Data lake analytics运行。在那里我会提取系统的日期和时间(我不知道怎么

浏览 2提问于2018-04-23得票数 0

2回答

无法理解matplotlib pyplot直方图

、、、

我只是在学习数据分析的一些基础知识。我有一个简单的csv数据文件，如下所示。 START,FIRST,SECOND,ITEM 1,100,200,A 2,100,200,B 2,100,300,C 2,200,300,D 3,200,100,E 3,200,100,F 3,200,100,G 3,200,100,H 3,200,100,I 3,200,100,J 我编写了这个小程序来读取这个csv文件，然后使用matplotlib为三列START、FIRST和SECOND打印一个直方图。我还打印了第一列和第二列的散点图。 #!/exp/anaconda3/bin/python3 import

浏览 1提问于2020-10-10得票数 0

1回答

Linux内核如何处理只针对谱变体1而不是变体2修补的新芯片？

、、、、

芯片如何修补幽灵变体1和熔毁熔毁，如威士忌湖和琥珀湖，如何处理谱变体2？我在找一台新笔记本电脑。目前正在评估联想x390。它将与威士忌湖一起上市，该公司声称对熔毁和幽灵变体有硬件修复。根据南德科技公司的说法最大的性能标志是解决谱变体2。当软件修复时，英特尔预计性能将下降3%至10%，这取决于工作负载--在硬件修复时，英特尔表示性能下降要小得多，但预计新平台(比如Cascade Lake)将提供更好的整体性能。威士忌湖和琥珀湖都没有减轻v2的影响，但是威士忌湖对一些更危险的攻击(如v3和L1TF )进行了修复。威士忌湖也提供新的性能回收箱，因为该平台也在14++上，这将有助于提高性能和动力。

浏览 0提问于2019-02-28得票数 6

1回答

Azure Data-lake Analytics中有两个文件夹的目的是什么

、

我是Azure数据湖的新手。下面的屏幕截图有2个文件夹(Storage Account和Catalog)，一个用于Datalake分析和其他数据湖存储。我的问题是，为什么每个文件夹的目的是什么，为什么我们使用U-SQL进行转换，而这可以在数据工厂中完成。请解释从数据存储到数据湖的数据流过程。 enter image description here 谢谢你，艾迪

浏览 18提问于2019-02-15得票数 0

1回答

Visual中的数据湖泊标签丢失了吗？

、、

我下载并安装了每个我创建了一个控制台应用程序和我还可以访问Azure的数据湖(尽管我不会向您展示) 我是不是遗漏了什么？ DOOD，我的TAB在哪里？ IT应该像THIS...RIGHT?那样出现

浏览 1提问于2016-06-14得票数 0

回答已采纳

2回答

如何显示实体框架数据库中的数据？

、、、、

我使用实体框架在Players中有两个表(Clubs，Database.cs )。我想显示数据从web服务到控制台应用程序(客户端)。我想展示来自某个俱乐部的所有球员。看起来应该是这样的。控制台应用程序弹出并说:你想从哪个俱乐部展示球员？我输入：“洛杉矶湖人”。应用程序现在应该显示来自洛杉矶湖人的所有玩家。这是我的密码： [WebMethod] public string playerClub(string clubName) { using (var db = new Database()) { string player = ""

浏览 2提问于2014-10-27得票数 0

1回答

如何使用数据工厂将csv文件数据加载到azure datalake的表存储中

、、

如何使用数据工厂将csv文件数据加载到azure数据湖的表存储中。假设我有一个列和行都很少的文件，我想使用数据工厂将这些数据上传到azure data的azure table storage -lake gen-2。我使用了azure数据工厂的复制活动和azure数据湖容器中的一个文件作为源，但对于接收器，我看不到选择azure数据湖表存储的选项。如果我遗漏了什么，请告诉我好吗？

浏览 22提问于2020-01-28得票数 0

2回答

使用Azure数据湖时是否需要数据仓库？

、、、

我正在探索Azure数据湖，我是这个领域的新手。我探索了很多东西，读了很多文章。基本上，我必须从不同来源的数据开发Power仪表板。在典型的Server栈中，我可以编写一个ETL (提取、转换、加载)进程，将我的系统数据库中的数据导入数据仓库数据库。然后利用SSAS等技术，利用Power实现数据仓库。但是我想使用Azure数据湖，我探索了Azure和Azure ( use )。我绘制了如下的架构图。在当前的申请流程中，我遗漏了什么东西吗？我可以使用Power直接从Azure数据湖获取数据，因此不需要数据仓库。我说的对吗？我可以在Azure数据湖创建一个数据库，那

浏览 1提问于2018-03-15得票数 3

回答已采纳

1回答

首先是数据湖还是数据仓库？

、、

我一直困惑着是要创建一个数据湖还是一个数据仓库，希望一些有经验的现实世界的专业人士能给我一些启示。我想用我从多个来源(IoT设备、API等)摄取的数据来存储、可视化和执行机器学习。我读到，在我们所处的当前环境中，企业将同时需要数据湖和数据仓库。我的问题是：我是否应该先创建一个数据湖，然后从湖中转换/处理这些原始数据，并将其摄取到数据仓库中？还是数据湖本身是一个独立的数据处理管道？还是这取决于用例？这就是我一直在想的： 📷 PS:如果这是错误的StackExchange，请告诉我，谢谢:)

浏览 0提问于2022-05-13得票数 2

回答已采纳

1回答

Azure数据湖文件中的逻辑视图

、、

我有一个要求分类的PII和非PII数据从Azure数据湖发电1文件。由于我不想复制数据湖中的物理文件创建，我们是否可以在数据湖中创建逻辑视图，最好与物化视图相比较。更好的技术-天青同步分析/数据库/ VM与火花过程，. 此外，该技术易于与RBAC的Active Directory集成。告诉我可能性。

浏览 4提问于2020-09-11得票数 0

回答已采纳

7回答

Hadoop Vs数据湖

、、

我听说了数据湖这个新名词。我在谷歌上查到了数据湖是一个大规模的存储库和处理引擎.数据池提供“任何类型的数据的大量存储、巨大的处理能力和处理几乎无限并发任务或作业的能力”。术语数据湖通常与面向Hadoop的对象存储相关联。在这种情况下，组织的数据首先加载到Hadoop平台，然后将业务分析和数据挖掘工具应用于其驻留在Hadoop的商品计算机集群节点上的数据。 Hadoop也做了同样的事情。我们有存储的HDFS和用于计算的MapReduce。我对Hadoop和数据湖有点困惑。两者之间的区别是什么。如果它们是相同的，为什么会出现这个词。或者如何定义数据湖。

浏览 8提问于2016-03-14得票数 16

1回答

从Azure blob存储到蔚蓝数据湖存储的处理文件

、

我正在处理从Azure blob存储到azure数据湖存储的文件，我需要从年份(文件夹)\月份(文件夹)\ do (txt文件在日基上)选择文件，.I能够使用hadrcoded路径完成一个文件，但我不能每天选择文件并处理复制在蔚蓝数据湖存储中。有人能帮帮我吗。我正在使用ADF V2并使用UI设计器来创建我的连接、数据集和管道--我的步骤很好。将文件从blob存储复制到数据湖存储从数据湖存储中选择该文件，并通过usql处理转换数据。转换我在Azure SQL DB中保存的数据。请给我答案，我不能得到任何帮助b/c，所有的帮助都是在JSON中，我正在研究如何在UI设计

浏览 0提问于2018-10-28得票数 1

回答已采纳

2回答

(Azure)数据湖的元数据管理

、、、、

据我所知，数据湖解决方案用于存储从原始格式的原始数据到经过处理的数据。不过，我还不能理解(Azure)数据湖中的元数据管理的概念。在数据湖中处理元数据的最佳实践是什么？是否有任何自动读取元数据的机制(例如，从头文件中读取)，如果有，是否有任何方法来查看和编辑此元数据(可能是编程实现的API )？我担心，如果没有适当的管理，“湖”只会变成“数据坟墓”。一种解决方案可能是创建一个自己的数据库，我自己在其中存储每个文件的元数据。还有其他更先进的方法吗？

浏览 4提问于2017-03-27得票数 3

1回答

我们可以用Azure DevOps测试计划来测试数据蛋糕吗？

、、、、

我正在从事一个数据湖项目，我使用(编写pyspark代码)用于ETL，使用Azure DevOps用于CICD和源代码管理。我注意到了Devops中的测试计划:我的查询是，我可以使用测试计划进行数据湖测试吗？我浏览过与网络浏览相关的测试计划，但没有发现任何与数据湖、数据库或数据仓库相关的计划。

浏览 3提问于2020-01-19得票数 0

1回答

数据体系结构-全天蓝色堆栈与集成的三角洲湖

、、

一位朋友的公司正在开发一种数据架构，对我们来说，它似乎相当复杂，并且存在一些可伸缩性和成本问题。如果可能的话，我想征求您对旧的和建议的体系结构(或备选方案)的意见，讨论它们的优点和缺点，并可能发现不可预见的问题/限制。当前架构- Azure Stack 摄食层多源通过Azure数据库存储到Azure数据湖Gen2 处理层 Azure数据库清理数据并将其存储回Azure数据湖Gen2中:原始的、干净的加载层使用instanceAzure Azure数据库将数据加载到Azure Server中，使用 Synapse作为Azure Server和Azure Analysis 之间的层

浏览 5提问于2021-12-10得票数 0

2回答

如何创建具有可变bin宽度的直方图

、、、、

我和其他人的阴谋都是不成功的。一个简单的问题是使用以下数据： age range - frequency - central band width - bin width - height (respectively) 1-4 - 30 - 2.5 - 3 - 10 5-6 - 20 - 5.5 - 1 - 20 7-17 - 30 - 12 - 10 - 3 随着年龄的增长，沿X轴方向呈线性关系，1~4的仓宽为3

浏览 6提问于2014-03-25得票数 3

2回答

如何使用数据工厂截断Dynamics 365实体(并复制到Azure数据湖)？

、、、、

我目前正在使用数据工厂将实体从Dynamics 365批量复制到Azure数据湖。实体每24小时保存为数据湖中的CSV文件。我希望将实体截断为新数据，并附加到数据湖中已经存在的文件中，而不是批量复制。我认为这是SQL数据库的常见操作，但这可以在Dynamics 365和数据湖之间完成吗？

浏览 14提问于2019-05-01得票数 1

2回答

如何最好地利用hist()来显示累积和规范化的直方图？

、

在处理从0到数万的数据集时，我遇到了一个问题。并且使用hist()显示整个数据集的直方图是没有问题的。但是，如果我只想使用x= 0,120来显示累积和规范化的详细直方图，我必须使用600000个柱状图来确保细节。棘手的问题是，如果我仅仅使用(0 ,120)的范围来显示归一化和累积的hist，它将以1结束。但实际上它远远小于真正的'1‘，因为它只是在这个小数据范围内进行了归一化。有人知道如何使用matplotlib中的hist()来解决这个问题吗？我认为这不应该太复杂，以至于我必须编写另一个函数来绘制我需要的历史记录。

浏览 0提问于2011-11-01得票数 0

回答已采纳

1回答

blob存储的PDF压缩

、

你好，我是Azure逻辑应用程序的新手。目前，我遇到了PDF压缩的问题。我的问题是，已经存储在数据湖中的文件很少，我想检查它们的大小，如果大小超过20 My，那么我需要在数据湖中用压缩文件来压缩和替换原始文件。首先从数据湖获取数据并获取content.And，然后从文件的元数据和正在提取的大小的元数据中获取数据。如果尺寸大于20，我就压缩。我使用文件大小列表作为“真”。我的文件大小通常超过150 My。我觉得这是压缩机故障的主要原因。

浏览 4提问于2022-03-23得票数 0

1回答

如何计算已入库数据的峰度？

、、、、

有没有人知道如何使用Python单独从二进制数据计算分布的峰度？我有一个分布的直方图，但没有原始数据。有两列；一列显示仓位编号，另一列显示计数编号。我需要计算分布的峰度。如果我有原始数据，我可以使用scipy函数来计算峰度。在本文档中，我看不到使用二进制数据进行计算的任何内容。https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kurtosis.html scipy的binned statistics选项允许您计算bin内的峰度，但仅使用原始数据和bin内的峰度。https://docs.scipy.org/d

浏览 19提问于2019-01-29得票数 1

回答已采纳

1回答

从DynamoDB表创建数据池

、、、、

我们有一个服务，其中一个DynamoDB表~50 is是我们的特性存储库，用于实时在线应用程序。我们希望从这个表中创建一个数据湖，用于历史数据、模型培训和分析洞察力。我们想保证30分钟的数据湖数据“新鲜”w.r.t。原来的桌子。但是，我对什么是一个很好的体系结构感到困惑:我对数据湖的理解是，您应该使用一个存储服务(即S3)来存储没有处理的原始数据。然后，执行ETL工作，在转换、处理和过滤数据(例如，使用Glue)之前，将其用于任何应用程序。，但我有疑问：，这是否意味着我们必须每30分钟将DynamoDB表转储到S3中？这可能是，但听起来很奇怪(这将导致~876 in /年)。我是不是漏

浏览 7提问于2021-08-13得票数 1

回答已采纳

2回答

关于三角洲湖的困惑

我试着阅读了很多关于databricks delta lake的资料。据我所知，它为您的数据存储增加了ACID事务，并通过增量引擎提高了查询性能。如果是这样，为什么我们还需要其他不支持ACID事务的数据湖呢？Delta lakes声称将数据湖和数据仓库这两个世界结合在一起，我们知道，由于它目前对操作的支持，它还不能取代传统的数据仓库。但它应该取代数据湖吗？为什么需要两份数据副本-一份在数据湖中，另一份在德尔塔湖中？

浏览 21提问于2020-07-30得票数 0

回答已采纳

1回答

如何列出Databricks Azure中的所有增量表？

、、

我在我的三角洲湖中保存了一个dataframe，下面是命令： df2.write.format("delta").mode("overwrite").partitionBy("updated_date").save("/delta/userdata/") 此外，我还可以装载和看到三角洲湖/userdata： dfres=spark.read.format("delta").load("/delta/userdata") 但是在这里，我有一个疑问，比如当我将几个块文件从blob移动到创建datafra

浏览 0提问于2019-12-13得票数 2

1回答

使用Azure函数调用REST并在Azure数据湖gen2中保存结果

、、、

我想调用rest，并将结果保存为Azure Data Gen2中的csv或json文件。根据我所读到的，Azure函数是可行的。 The服务返回数据的格式如下： "ID","ProductName","Company" "1","Apples","Alfreds futterkiste" "2","Oranges","Alfreds futterkiste" "3","Bananas","Alfreds futt

浏览 1提问于2019-04-12得票数 1

回答已采纳

1回答

Postgresql -在外部硬盘上有一个可供许多计算机使用的便携式数据库

、

我想知道是否有可能在外部硬盘上有一个便携式Postgresql数据库。我们的想法是使用那个硬盘，把它插到我的一台电脑上，然后使用数据库。就目前而言，我不可能有一台总是通过网络运行并连接到它的计算机。出于某些原因，我并不总是可以访问同一台计算机，但我总是可以访问我的外部硬盘驱动器。这两台计算机都在运行Linux发行版。

浏览 0提问于2022-06-12得票数 1

1回答

支持数据湖设置的服务

、、、、

我必须测试和比较可用的解决方案来创建一个数据湖。除了AWS湖的形成之外，还有其他服务可以轻松地建立一个安全的数据池吗？我知道我可以在Azure和Google平台上创建一个帐户，但是我不知道他们是否有任何我需要的解决方案的“包”，或者帮助我建立数据湖的服务。

浏览 1提问于2019-05-09得票数 0

回答已采纳

3回答

如何将Azure数据湖存储连接到Azure ML？

、、、、

嗨，我开始学习蔚蓝数据湖和蔚蓝机器学习，我需要使用蔚蓝数据湖存储作为蔚蓝机器学习工作室的输入数据.There有任何选项在那里，我浏览了蔚蓝数据湖和机器学习文档，但我无法达到，最后我有一个解决方案在这个上，但他们提到没有选择，但这是一个老的帖子，所以可能是微软的人添加了未来，如果它是请让我知道，让我知道，谢谢。

浏览 6提问于2017-03-07得票数 5

回答已采纳

1回答

是否可以从flink作业触发spark作业并从中获取数据？

、、

我正在使用flink从Azure数据湖中读取数据。但flink无法找到Azure数据湖文件系统。我已经实现了spark来读取Azure Data Lake文件系统文件。因此，我尝试从flink中触发火花，从Azure数据湖中读取数据，并执行一些逻辑操作，然后将列表返回给flink。所以flink可以使用这些数据？是否可以从flink触发spark作业？或者如何配置flink来理解Azure数据湖文件系统。有人能在这方面给我指点一下吗？

浏览 2提问于2017-07-11得票数 0

1回答

气流任务分离

我正在尝试理解在下面的场景中最好的“气流方式”DAG设计是什么。假设有10个不同的REST API端点，我需要为每个查询收集不同的数据有效负载响应。每个数据响应都需要写入数据湖存储。我原本希望通过以下方式来实现：任务#1获取有效负载1。任务#2将有效负载1写入数据湖的中转区。任务#3获取有效载荷2。任务#4将有效负载2写入数据湖的中转区。……直到所有的有效载荷都被写入数据湖。问题是我如何将数据有效负载从例如任务1(它得到它)传递到需要写入它的任务2。有效负载太大而不能使用Xcom，而且在任何情况下，我都意识到这不是真正应该如何使用Xcoms。另一种模式是将任务1和任务2、任务3和任

浏览 48提问于2021-10-07得票数 0

回答已采纳

1回答

Azure Data Lake是否支持内容搜索？

我已经尝试通过MSDN中的Azure数据湖文档以及slideshare中的几张幻灯片来找出答案。据我所知，Azure Data Catalog用于基于元数据和用户可以提供的少量注释的可发现性。基于内容的搜索不会为这个湖增加更多的价值吗？

浏览 0提问于2016-10-05得票数 1

1回答

使用Pandas从列中删除第一个单词，有时是第二个单词

、

我需要从列中删除第一个单词，有时还需要删除第一个和第二个单词，以便可以合并两个数据帧。例如，在一个数据框中，“球队”列的格式为凯尔特人、掘金队、湖人队。在我的第二个数据框中，“团队”列的格式为波士顿凯尔特人、丹佛掘金、洛杉矶湖人。我遇到了麻烦，因为一些球队，比如湖人和鲸鱼，在实际的球队名称“湖人”之前有两个词(洛杉矶湖人，新奥尔良)。我使用的是Python和Pandas。Here is an example in List Format of what the column 'Teams' looks like in the data frame I need to mani

浏览 8提问于2021-04-28得票数 1

1回答

如何使用azure函数根据azure数据湖存储中收到的文件创建触发事件

、、、

我在Azure数据湖存储中有一个.csv文件，每当.csv文件加载到数据湖存储中时，我是否可以使用函数应用来触发Azure数据工厂(ADF)事件。当前的ADF支持blob存储的事件，但不支持数据湖。谢谢，拉维

浏览 12提问于2019-05-25得票数 0

3回答

AWS S3数据湖交叉帐户的使用

、、

我们有以下场景: Account (应用程序)将数据从应用程序写入帐户B(数据湖)拥有的S3桶。account C (reporting)中的分析人员希望处理数据，并在其之上构建报告和仪表板。帐户A可以用--acl bucket-owner-full-control将数据写入数据湖以允许帐户B进行访问。但是帐户C仍然不能查看和处理数据。一种(在我们看来不好的)解决方案是将数据复制到与帐户B相同的位置(覆盖)，从而有效地获取过程中数据的所有权，并消除该问题。我们不想要因为..。丑陋我们尝试在不同的帐户中扮演角色，但它并不适用于我们所有的基础设施。例如，通过CLI或控制台进行S3访问是可以的

浏览 1提问于2018-03-12得票数 1

回答已采纳

1回答

数据池中的事务性数据

、

我们有多个源系统发送数据。理想情况下，我们应该捕获来自源的原始数据，并将其保存在数据湖中。然后，我们必须将原始数据处理为结构化格式。现在，用户可以通过前端应用程序更新这些数据。我正在考虑在处理过的数据之上放置一个rdbms，然后将审计跟踪从rdbms拉到data，并合并处理过的数据和审计跟踪，以创建报告的最终视图。或者rdbms也可以用于分析。或者，我们可以将所有的数据原装在rdbms中，运行rdbms中的更改，并将数据从rdbms中提取到数据湖中。但是，引入数据湖并没有多大意义。请给我建议。谢谢,

浏览 1提问于2018-06-27得票数 0

回答已采纳

1回答

Azure Databricks DBFS数据集存储在哪里？

、、

我将数据上传到Azure Databricks，可以看到DBFS列表中有数据集，但在Databricks所属的资源组中找不到任何数据集。数据集存储在哪里？此外，如果我创建达美湖，如何从Azure数据工厂调用Delta湖？我看不出三角洲湖存放在哪里。

浏览 11提问于2022-04-14得票数 0

回答已采纳

1回答

三角洲湖有数据库/表格浏览器吗？

是否有类似三角洲湖数据库/表浏览器的工具？我们有一个开源的delta.io部署，并且想知道是否有任何工具可以提供类似SSMS、MySQL工作台、DBeaver等更好的开发体验。

浏览 3提问于2022-05-11得票数 3

2回答

定义深度/尺寸未知的c++模板

、

我想写一个n维直方图类。它的形式应该是包含其他仓位的仓位等，其中每个仓位包含最小和最大范围，以及指向下一维仓位的指针 bin的定义如下 template<typename T> class Bin { float minRange, maxRange; vector<Bin<either Bin or ObjectType>> bins; } 这个定义是递归的。因此，在运行时，用户定义直方图的维度 so if its just 1-dimension, then Bin<Obj> while 3-dimensions Bin<Bin&l

浏览 2提问于2012-06-10得票数 0

回答已采纳

1回答