首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >事件中心、流分析和数据湖管道问题

事件中心、流分析和数据湖管道问题
EN

Stack Overflow用户
提问于 2018-01-13 03:23:21
回答 1查看 367关注 0票数 0

在阅读了这个文章之后,我决定尝试构建一个数据摄入管道。一切都很好。我能够发送数据到事件中心,这是由流分析和发送到数据湖。但是,对于一些我觉得奇怪的事情,我有几个问题要问。如果有一个比我更有经验的人能够回答我,我将不胜感激。

这里是我的流分析中的SQL

代码语言:javascript
运行
复制
SELECT
    *
INTO
    [my-data-lake]
FROM
    [my-event-hub]

现在,关于以下问题:

  1. 我应该将100%的数据存储在一个文件中,尝试将其拆分到多个文件中,还是尝试实现每个对象一个文件?将所有数据存储在一个文件中,作为一个巨大的JSON数组。我尝试将{date}和{time}设置为变量,但它仍然是一个巨大的文件。
  2. 是否有一种方法可以强制在自己的文件中从事件集线器中写入每个条目?或者限制文件的大小?
  3. 有没有一种方法可以从中设置文件的名称?如果是,是否有一种方法来覆盖一个文件,如果一个名称已经存在?
  4. 我还注意到,文件一创建就可用,并且是实时写入的,在下载/显示文件时,我可以看到文件内部的数据截断。而且,在结束之前,它不是一个有效的JSON。如果我在编写数据湖文件时(通过U)查询它,会发生什么?是否可以忽略最后一个条目,或者将其理解为一个不完整的对象数组?
  5. 是否最好将JSON数据存储为数组或新行中的每个对象?

也许我在我的问题上采取了一种糟糕的方法,但我在(谷歌的NoSQL解决方案)中有一个巨大的数据集。我只能访问Datastore,拥有一个权限有限的帐户。我需要把这些数据存储在数据湖上。因此,我创建了一个应用程序,将数据从Datastore流到事件中心,该应用程序是由streams接收的,它将数据湖中的文件记录下来。这是我第一次使用这三种技术,但似乎是最好的解决方案。这是我的选择-替代ETL混乱。

我很抱歉提出了这么多问题。我希望有人能帮我。

提前谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-14 09:28:30

我只会回答文件方面的问题:

  1. 通常情况下,与许多非常小的文件相比,生成更大的文件以供以后处理更好。考虑到您正在使用JSON,我建议将文件限制到JSON提取器能够管理的大小,而不会耗尽内存(如果您决定使用基于DOM的解析器)。
  2. 我会把这个留给ASA专家。
  3. 也是。
  4. 答案取决于ASA如何编写JSON。客户端可以附加到文件中,而U应该只查看已在密封区段中添加的文件中的数据。因此,如果ASA确保区段与JSON文档的结尾对齐,那么您应该只看到一个有效的JSON文档。如果没有,你可能会失败。
  5. 这取决于您计划如何处理数据。请注意,如果将其作为数组的一部分编写,则必须等待数组“关闭”,否则JSON解析器很可能会失败。对于并行化和更“灵活”,我可能会得到一个JSON文档每行。
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48236647

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档