首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >数据湖如何存储数据和格式?

数据湖如何存储数据和格式?
EN

Stack Overflow用户
提问于 2018-09-09 04:59:37
回答 1查看 4.9K关注 0票数 2

我听说数据湖可以存储任何类型的数据:关系型,NoSql,图片/图像,Adobe,Excel。如何以无SQL格式或二叉树存储数据?还是把它像普通硬盘一样保存?如果是这样的话,他们为什么不直接称之为存储,而不是数据湖呢?我正在试图找到“数据湖”的确切存储机制。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-09 15:05:50

数据湖是以其自然格式存储的数据的系统或存储库,1通常是对象块或文件。数据池通常是所有企业数据的单一存储区,包括源系统数据的原始副本和用于报告、可视化、分析和机器学习等任务的转换数据。数据池可以包括关系数据库(行和列)的结构化数据、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、PDF)和二进制数据(图像、音频、视频)。

示例:用于托管数据湖的技术的一个例子是Apache中使用的分布式文件系统。

许多公司还使用云存储服务,如Azure数据湖和AmazonS3.9,学术界对数据湖的概念逐渐感兴趣,例如,卡迪夫大学的个人DataLake10创建了一种新型的数据湖,旨在通过提供一个收集、组织和共享个人数据的单一点来管理个人用户的大数据。

早期的数据湖(Hadoop1.0)由于其面向批处理(MapReduce)的能力有限,是唯一与其相关的处理范式。与数据湖交互意味着您必须具备Java方面的专业知识,使用map、reduce和更高级的工具,比如Apache & Apache (这些工具本身是面向批处理的)。随着Hadoop2.0的到来和由纱线(另一个资源谈判者)接管的资源管理( Resource )的职责分离,新的处理范式(如流、交互式、在线处理)已经通过Hadoop和Data提供了。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52241471

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档