我刚接触hadoop,正在阅读“Hadoop权威指南”这本书。
Hadoop中流数据访问的含义是什么,以及为什么我们说Hadoop应用程序中的延迟很高。有人能给我解释一下吗?提前感谢
发布于 2013-04-29 09:16:44
Ok..Let me try..“流数据访问”意味着不是以数据包或块的形式读取数据,而是以恒定的比特率连续读取数据,就像水龙头里的水一样。应用程序从文件的开头开始读取数据,并继续以顺序的方式读取数据,而不会进行随机寻道。
关于问题的第二部分,Hadoop应用程序中的延迟据说很高,因为最初的几秒钟都花在作业提交、资源分配、拆分创建、映射器创建等活动上。
HTH
发布于 2013-04-28 16:00:48
对于延迟,我可以说完成时间总是大于30秒,即使您使用的是KB的 of data。我完全不知道为什么它这么长,但这一次是初始化,例如创建作业,确定数据的哪一部分将由哪个worker处理,等等。
因此,如果您要处理小于GB的少量数据,则不要使用hadoop,只需使用pc即可。Hadoop仅适用于大数据
发布于 2018-03-17 22:30:29
它指的是HDFS操作是读密集型的,而不是写密集型的。在一个典型的场景中,仅当源数据是最新的并确保您拥有最新的数据集时,才会将用于分析的源数据加载到HDFS中。
在分析过程中,会复制原始数据(几乎是整个数据的形式)。然后将在复制的数据上调用您的MapReduce操作。
正如您所看到的,它与通常的存储和处理之间的关系不同。在正常操作中(比如你的PC/Mac),你会理想地希望文件快速打开,这是低延迟的,并保持较小的文件大小以使其可行。
由于HDFS倾向于处理数of (1000 GB)的数据,因此延迟将会很高,但与之形成对比的是,实际上可以更轻松地处理大型数据集。
https://stackoverflow.com/questions/16260535
复制相似问题