纽约时间3月18日,美国ACM协会宣布现在Microsoft Research的Leslie Lamport获得2013年的图灵奖——计算机界的最高成就奖项。AMC对Lamport获奖的官方评价是:
“为其在分布式和并发系统的理论及实践上的根本性贡献,特别如因果关系、逻辑时钟、安全性和活性、复制状态机以及顺序一致性等概念的发明。”
Lamport是应用数学家,工作领域为分布式系统和并发系统,通过建立的概念和发明的算法,Lamport在看似混乱的分布式计算系统中建立了清晰、明确的同步。Lamport设计了重要的算法、研发了规范的模型和验证协议,从而提高了计算机系统的正确性、性能以及可靠性。Lamport在1990年提出的Paxos选举算法(1998年发布)被谷歌公司广泛应用在包括B4 SDN等在内的产品内。关于B4 SDN可以参阅我们的技术报告。
Lamport还因为并发编程和容错计算的理论及实践上的贡献获得过IEEE的Emanuel R. Piore奖。
物联网催生大数据 数据中心技术需创新
Gartner最新报告显示,2013年全球存储市场继续疲软,相比于2012年,全球磁盘存储厂商的总营收仅增长了1.4%,这与之前IDC报告的结果相差无几。但仍有厂商交出亮眼成绩,丰富全面的产品线或新品推出等让EMC、HP与NetApp保持了收入增长。
但全球存储市场的疲软并不会让数据增长会疲软。Gartner预测到2020年,将有260亿个物联网设备被安装并联网。思科CEO钱伯斯则认为到2020年,将会有5000亿个设备联接到互联网。大量设备接入所产生的海量数据,将给包括服务器、存储以及网络等数据中心领域技术带来严峻的挑战。这将迫使数据中心相关技术做出创新、变革。
遍布各地的联网设备,把数据集中到单一数据中心不太现实,主数据中心与多个小型数据中心(mini data center)相互配合将成为趋势。Gartner认为,除了对计算效率、网络带宽以及存储效率等具体技术提出创新需求之外,DCIM(数据中心基础设施管理)系统、运营技术标准以及通信协议都需具备前瞻性。
尽管数据量大,但并不是所有数据都一直保持活跃,有些数据访问时间往往只有几小时,由此催生了一个冷存储生态系统。IDC将冷存储定义为最低层的数据存储解决方案,总成本要低于保存其上的数据集的剩余或者已知商业价值。
IDC研究认为,冷存储解决方案不适合生产环境,其之所以形成独有的“生态系统”,是云提供商、存储系统和组件提供商以及ISV共同努力的结果。在未来,冷存储介质将逐渐被用于对延迟要求较低的数据库、存储系统与备份等应用场景。
点评:如何解决海量数据给数据中心带来的难题,在《数据中心2013:硬件重构与软件定义》报告中,我们详细阐述并分析了以互联网企业为代表的“硬件重构”阵营,与传统企业级用户为代表的“软件定义”阵营各自所使用的方法和技术。Open Rack、冷存储、硅光子互联、SDN、SDS以及闪存等,都是数据中心行业进行的技术创新或变革。
掘金大数据 数据库各显其能
大数据蕴含着不可估量的商业价值,但目前的分析方法或手段似乎难以发掘出其全部商机。改进或创新数据分析技术则已经成为一种商机。
微软今天就发布了其最新的SQL Server 2014代码,其最大的亮点在于,添加了内存数据库引擎功能,并与Azure集成。当然,其功能还有改善的空间,如目前其内存数据总量不能超过256 GB,有双插槽硬件要求,以及应用场景还不够广泛等等。但这些都可以随时间的推移得以改进。
微软一边与Oracle合作在Azure上推出更多产品选择以加强竞争力,一边自己发展相关技术。毕竟大家都紧盯着大数据分析这个“香饽饽”,包括开源业界,例如OpenStack就已宣布加入Cassandra,以在DBaaS生态圈分得“一杯羹”。另外,据国外消息,以Hadoop闻名于世的Cloudera又获得了一大笔投资——1.6亿美元,关于这笔投资的具体使用,Cloudera CEO将在本周四的内部会上公布。
助力大数据 SDN联姻Hadoop
SDN(软件定义网络)一大作用就是在拥有大量虚拟机和虚拟网络的环境可以获得强大的可定制性和自动化控制能力,然而在数据中心领域,其当前能解决的问题仍然有限,特别是一些虚拟机数量较少的领域,例如,大数据。大数据领域很少应用虚拟化技术,因为这个领域的计算任务十分繁重,并且拥有自己的调度器对资源进行调度,并不需要虚拟化带来的定制化和自动化控制——这是当前人们所广泛持有的观点。
事实果然如此吗?除了VMware从2013年开始一直在推动其VMware vSphere Big Data Extensions之外,近日,来自武汉科技大学的研究人员还将SDN应用到了大数据领域。在其称为《Bandwidth-Aware Scheduling with SDN in Hadoop: A New Trend for Big Data》的论文当中,华中科技大学提供了一个称之为BASS(Bandwidth-Aware Scheduling with SDN in Hadoop,基于SDN的Hadoop带宽感知调度)的调度器。华中科技大学的人员认为,当前Hadoop拥有数种任务调度器,但全部都没有将网络带宽考虑在内,因此,则将会“损失掉优化调度的机会”。
由于带宽问题而导致负载未能合理分配的现象显然确实存在,因为Hadoop的调度器仅仅考虑了计算,没有考虑网络。BASS的目的就是在调度的时候将网络带宽考虑进去,它将与OpenFlow控制器协作以获取网络相关信息,并在分配Hadoop任务的时候进行更高效率的调度。论文显示BASS确实比其他任务调度器更快,特别低,还可以通过额外的Pre-BASS组件得到甚至更高的效率和更快的速度。
点评:大数据分析的基础设施向来被认为比较简单,不需要太复杂的管理,然而我们可以看到,软件定义拥有的自动化管理能力和定制能力仍然能发挥作用,另一方面,软件定义还能将割裂的计算、网络和没有提及到的存储等资源进行统合管理的能力,而传统的IT架构正缺乏这一点。