Automatic Management of Data and Computation in Datacenters

最近在研究数据中心的数据管理和性能优化,看了一篇2010的论文Nectar:Automatic Management of Data and Computation in Datacenters,还是有一定的启发的,简要介绍给大家,详细的建议大家download论文下来看下。

Nectar核心思路有两个:

1、大部分数据计算存储之后是无效的,根据论文中研究统计结果,有50%的文件在过去的250天之内完全未必访问过,所以这50%的存储是完全被浪费掉了,因此只计算和存储真正有用的数据就可以降低50%的存储使用。

2、数据计算的中间过程是可以被重用的。通过重用子计算,来降低数据中心的负荷。

Nectar怎么来做到上面两点呢?

核心方法: 实现数据和计算的统一自动化管理。实现计算和数据可交换,主要在于2点:

1、将计算的结果存放在Cache中统一管理,等到下次相似的计算进行的时候,首先从datecenter wide caching service中去查找是否已经完全或者部分执行过,如果有的话,就会避免相同数据的重复计算。

2、将废弃不用或者经常不使用的数据从数据中心的存储空间自动回收(使用了标准的mark-and-sweep Garbage Collector),并保留生成该数据的计算来取代该数据,但是当该数据需要的时候,就要重新提交该计算。

上面说的对计算和数据的管理,整个过程对用户是完全透明的。做到以上两点,核心在缓存策略,重算算法。看下封面的Nectar的架构:

1、用户提交程序的时候,程序会被rewriter,分解成子计算,然后到cache server中看是否被命中,命中的不需要重新计算,从而节省计算时间。

2、每次计算的中间过程,同样会被cache到cache server中。

3、Cache server并不保存数据,所有数据保存在Distribute FS上。Cache server上只是保存一个到Distributed FS映射。

当能这个系统也不是万能的,当前Nectar为了做到program rewriter,要求所有的程序只能是LINQ,另外,数据重算的策略对时效性要求高的是否适合也值得讨论。总的来说,系统的思路还是值的借鉴和学习的,推荐大家去down一下原生的论文看看。

2014年我给自己定了一个目标,看50篇英文论文,目前完成5篇了,这个算是启发比较大的。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2015-01-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序你好

数据库设计中的6个最佳实践步骤

如果设计得当,数据库是记录、存储、检索和比较数据的强大工具。然而,一个没有经过精心设计和目的的数据库不仅仅是无效的,它对那些使用它最多的人(开发人员)来说是一个...

762
来自专栏猿天地

项目中如何设计通用的评论模块

转载:猿天地 链接:http://cxytiandi.com/blog/detail/2289 猿天地在做完博客功能后,就有小伙伴提出了文章下不能评论啊,怎...

3297
来自专栏CSDN技术头条

Hadoop 2.0 上深度学习的解决方案

波士顿的数据科学团队正在利用尖端工具和算法来优化商业活动,且这些商业活动是基于对用户数据中的深刻透析。数据科学大量使用机器算法,可以帮助我们在数据中识别和利用模...

2198
来自专栏熊二哥

架构设计深入学习02-概念架构与细化架构

胜兵先胜而后求战,败兵先战而后求胜—《孙子兵法》。 这部分有些内容比较陈旧,但原理和思路还是一致的。 ? 通常来说,概念架构满足"架构=组件+交互"且只关注高...

1808
来自专栏腾讯大数据的专栏

面向高维度的机器学习的计算框架-Angel

简介 为支持超大维度机器学习模型运算,腾讯数据平台部与香港科技大学合作开发了面向机器学习的分布式计算框架——Angel 1.0。 Angel是使用Java语言开...

1927
来自专栏木东居士的专栏

DataTalk:是一个宽表好还是多个维表好?

2243
来自专栏瓜大三哥

乒乓结构和流水线设计

乒乓结构 ? l 通过“输入数据选择单元”和“输出数据选择单元”按节拍、相互配合的切换,将经过缓冲的数据流没有停顿地送到“数据流运算处理模块”进行运算与处...

2076
来自专栏IT大咖说

MongoDB应用从设计到实现 | 深度解读

张耀星,MongoDB大中华区高级顾问,加入IT行业10余年,从事过电商,手游及各类网站的设计制作工作。曾担任跨境电商网站dx.com架构师,Universal...

3337
来自专栏CDA数据分析师

学习R语言的三种境界

王国维在《人间词话》中将读书分为了三种境界:“古今之成大事业、大学问者,必经过三种之境界:‘昨夜西风凋碧树,独上高楼,望尽天涯路’。此第一境也。‘衣带渐宽终不悔...

1859
来自专栏人工智能头条

Hadoop 2.0 上深度学习的解决方案

1053

扫描关注云+社区