首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >什么是读取数据作为“流时尚”的含义?

什么是读取数据作为“流时尚”的含义?
EN

Stack Overflow用户
提问于 2017-04-27 01:31:13
回答 1查看 319关注 0票数 2

我当时正在读Apache Crunch documentation,我发现了下面的一句话:

数据是以流式方式从文件系统读取的,因此不需要PCollection的内容在内存中适合使用物化将其读入客户端。

我想知道read in from the filesystem in a streaming fashion是什么意思,如果有人能告诉我与其他人读取数据的方式有什么不同,我将非常感激。

我想说,这个概念也适用于其他工具,如星火。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-04-27 05:07:26

假设您的文件系统上有一个英文文件,需要翻译成德语。你基本上有两个选择。您可以将整个英文文件作为一个大批在内存中加载,立即翻译整个批处理,然后将新的德语批处理写回文件系统。

或者你可以一条条地做。用英语读第一行;翻译成德文,写到新文件;用英语读第二行,翻译成德文,并附加到新文件;等等。

后一种方法类似于Apache文档中描述的流方法。

PCollection的作用就像RDD对火花的作用--框架的基本分布式数据抽象,但是Crunch在更高的抽象级别上运行。它试图为跨技术的数据管道提供一个很好的API。

例如,您可能有您有可靠查询的Hive中的数据;这些查询的输出用作存储HBase中数据的遗留HBase作业的输入;这些数据由Spark的MLLib机器学习库进行分析,最终结果将传递给卡桑德拉。means试图通过PCollection抽象将所有这些内容整合在一起,但是它的流方法意味着您不必等待一个作业在下一个作业开始之前完成。就像逐行文件转换一样,您一次处理一点,然后在管道的每个阶段移动每一个位--而不是分批完成。

您是对的,流的概念适用于像Spark这样的工具(最明显的是使用Spark流),但正如我所提到的,Spark的抽象级别比Crunch低。星火作业可能只是Crunch管道的一部分。但流媒体确实是一个强大的范例。它是Jay设计的Kappa建筑的基础(以前是LinkedIn,现在是Confluent,他是阿帕奇卡夫卡的先驱),它是Nathan设计的基于批处理的Lambda建筑 (以前来自Twitter)的一种更简单但更强大的替代方案。

最后,在抽象级别(Crunch高于Spark)和一次操作一批或逐点操作之间进行选择。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43647168

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档