独家揭秘RISELab实验室

UC Berkeley大学的AMPLab曾是大数据领域世界顶尖的实验室之一,六年来推出了多项主要的科技创新技术,比如Apache Spark、Apache Mesos和Alluxio,而如今它即将关闭,取而代之的是RISELab实验室。RISELab实验室会专注于提供SRDS,即安全实时的决策堆栈。

Spark技术商Databricks的共同创始人与执行总裁,UC Berkeley的计算机科学与电气工程教授,同时也是Spark的核心作者——Ion Stoica就曾在2016年比利时布鲁塞尔的Spark欧洲峰会上讨论过新RISELab实验室的相关信息。

Stoica表示:RISELab代表着实时智能安全执行(RISE),其定位是在分布式计算中解决下一个阶段,根据Databricks博客的说法:“Storica曾表示,这个新阶段是为了通过两个项目——Drizzle和Opaque,改进Spark并实现创新,其致力于构建开源框架、工具、算法,以便能够以更高的安全性,根据实时数据,决定要构建哪些实时应用。”

RISELab的初期目标是为了增强Spark的安全性与实时能力,因此,根据Databricks的信息,Drizzle项目的目标是将Spark Streaming的延迟降低一个数量级,同时提高其容错性。Opaque项目是为了增强Spark的动态与静态数据的加密功能。

在Berkeley大学的官网上,可以找到许多组成SRDS的研究项目,例如,Arx允许用户对诸如MongoDB、Apache Cassandra等HDFS、S3与NoSQL数据库中的加密数据进行查询。Ray、Clipper、Succinct是紧随Spark引擎之后的研究项目,而LatticeFlow、LatticeKVS和Bedrock就是文档中展示的其它三个项目。LatticeFlow为新的异步数据协调框架提供核心编程API,LatticeKVS在数据存储中负责键值存储,Bedrock则提供永不变更的“底层存储”。Ground是一个“数据关联系统”,目前正在研发中,它也是RISELab的早期项目之一。

之前的AMPLab曾在Apache Spark和Apache Mesos上获得了重大的成功,Databricks的联合创始人与CTO Matei Zaharia还在就读PhD的时候,就在Stoica的指导下也参与了这两个很有影响的项目。Alluxio是一个分布式的内存文件系统,最初是为了处理Spark的数据,不过在众多贡献者的改进下,目前已经是最热门的开源项目了。

UC Berkeley将会有30名幸运的大学生参与到RISELab中,具体课程信息可以查看另一份文档。至于这个新实验室会为我们带来什么影响——无论对开源软件社区,还是商业项目,就只有时间能够证明了。但根据现有的信息,RISELab将试图解决一些非常重大的问题,包括构建大型机器学习系统,通过从人类身边的传感器所收集的数据,推动一个全新的智能时代。

RISELab所设想的SRDS将会交付:

  • 一款分析工具——较Spark延迟降低100倍,但吞吐量达到Spark的1000倍;
  • 机器学习算法会实时对输入不可见的噪声数据进行分析,得出可靠的结果;
  • 确保用户隐私与应用程序的安全性。

人们已经制造出了这类通过实时数据进行实时决策的系统,特别是在高频交易与广告招标领域。然而,构建这类高度专业化的一次性解决方案所需的资源成为了推广的瓶颈,根据Github上的解释:“RISELab的目标就是,通过开发通用型安全实时的决策堆栈(SRDS),大幅降低构建这类解决方案的屏障。SRDS可以让更多人有能力构建起复杂的决策与预测分析应用,逐渐变更我们与世界互动的方式,并将来自于个人和公司的那些持续增长的数据予以利用,释放其巨大的价值。

发布可靠的推理模型似乎是RISELab的重点之一,特别是如今整个世界都在朝着自动化系统的方向发展,越来越多的无人驾驶汽车与人工智能聊天机器人纷纷出现。将决策引擎与相关行为的反馈关联起来,形成闭合循环是SRDS想要尝试解决的艰难问题之一,因为相关的推理引擎运转速度还不到10毫秒。“对实时数据进行实时决策会导致数据处理的阶段转变,就像当初从小数据过渡到大数据的过程一样——就如大数据那样,即便使用传统算法,效果也会出现戏剧化的提升。我们认为,启用在搜索空间中的快速搜索,再加上持续调整以适应环境,对实时数据进行实时处理的行为会获得有效的效果提升。”

如果这还不够,那么UC Berkeley官网上对RISELab的研究愿景的描述更加详细,具体如下:

RISE研究愿景

诸多开源的大数据处理系统,如Hadoop、Hive、Storm,还有最新的Spark和Kafka,这些软件的开发从根本上改变了商业与科学行业的日常实践。这些系统使得新商业模式的创建(比如Facebook、Twitter),原有行业的瓦解重建(比如Amazon、Uber、Airbnb),还有科学研究取得快速进展(比如基因组学、天文学与生物学)都成为了可能。如今,我们正在寻求一个大数据处理中能够定义下一个十年的转折点。

有这样三种趋势推动发展:

  • 我们的世界更趋于互联化,包括建筑物、电气用具、发动机、衣物等日常用品中都包含有传感器。通过互联化,这些传感器能够以空前的规模,实时对我们周边的世界进行探测。
  • 随着无人机、无人驾驶汽车与智能化建筑/基础设施的出现,目前我们已经不仅能探测整个世界,还能自动作出影响到物理世界的决策。
  • 例如:高频交易与计算广告学这些应用的成功,向我们揭示了通过实时数据进行实时决策的做法是卓有成效的。

这些趋势让我们对未来的模样有个大致的概念——通过感知周边的世界,收集分析信息并实时自动进行决策。根据实时数据进行决策的能力会从根本上改变我们与这个世界交互的方式,并加快科学探索的步伐。曾经不可能的应用,如今也成了现实,这类新的应用包括零时防御网络攻击、协调无人机舰队、实时对传染病进行诊断和追踪、对地震进行早期预警等等。

为了实现这一宏伟的承诺,我们需要开发新的开源软件工具、算法和硬件,加强下一代数据应用的能力,就像Hadoop、Spark在过去十年对大数据分析作出的贡献那样。

这就需要我们在以下三个领域取得重大进步:

  • 系统:构建可扩展的数据分析工具,在延迟降低和吞吐量提高方面达到现有平台(Spark等)的数量级优化。这些工具必须能够完成数据、模型和决策的大规模可靠循环。
  • 机器学习:开发在线学习算法,能够良好地分析噪声数据和不可见的输入源,并实时作出响应。
  • 安全性:确保用户隐私和应用的安全性,但不影响其功能或性能。许多实时应用会接触到敏感的数据,而且由于与人类处于同一个物理空间中,这意味着会存在隐私侵犯和潜在物理伤害的严重风险。

目前,存在有些许基于实时数据的实时决策方案,特别是在高频交易和广告竞标领域,不过这些解决方案过于高度专业化(一次性),而且需要耗费大量资源、花费数年来开发。RISELab的目标在于:通过开发出通用型安全实时的决策堆栈(SRDS),大幅降低构建这些解决方案的障碍,SRDS可以让更多人有能力构建起复杂的决策与预测分析应用,逐渐变更我们与世界互动的方式,并将来自于个人和公司的那些持续增长的数据予以利用,释放其巨大的价值。

对动态数据进行实时决策会导致数据处理中的阶段转变,就像从小数据过渡到大数据的过程。就如大数据一样,就算使用传统算法,也会得到戏剧化的效果提升。我们认为,启用在搜索空间中的快速搜索,再加上持续调整以适应环境,对动态数据进行实时处理会获得有效的提升。

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2017-02-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏熊二哥

项目管理深入理解02--沟通管理

PMI认为,项目经理90%的时间用于沟通,因此项目沟通管理对于项目的成功极为重要。 ? 规划沟通管理:何人何时需求何种信息以及如何传递、需要认清干系人的需求并...

22360
来自专栏Java架构师进阶

什么样的架构师才是真正的架构师?

  很多的创业公司,一人身兼数职的情形还是很常见的。至少,我是经历过的,一个人包办了所有的开发过程,连测试我都做了,绝对的一条龙,但是经常踩钢丝、骑独轮车总会有...

10340
来自专栏韩伟的专栏

需求变化的根源是什么?

在不按时算薪的行业里,软件开发应该是加班最多的一个行业。码农,是很多程序员用以自嘲的称谓。长时间的加班,大量的BUG,无穷无尽的特性,永远都在做的重构,伴随着程...

37230
来自专栏华章科技

大数据分析然并卵?那是因为你没做到这些

看到这篇文章,感觉对数据分析一些点总结蛮好的,分享给大家。数据分析要产生真正的价值,或者说要让业务方,管理层感觉到真正的价值,其实需要非常多的东西:

4910
来自专栏云计算D1net

云与虚拟化技术正逐步渗透至数据中心环境

数据中心正在经历转型——其现代化发展旨在满足各类业务运作所必需的新型技术,例如软件定义架构、云计算以及虚拟化等等。而这种现代化态势也受到CIO及其他IT高管们的...

38870
来自专栏喔家ArchiSelf

老曹眼中研发管理二三事

这是在gitchat上的第一次分享,中生代联手gitchat在做研发管理的专题活动,作为先锋,抛砖引玉。

10110
来自专栏腾讯开源的专栏

国内首家!主导Apache Hadoop新版本发布的,是腾讯云这位小哥哥

57350
来自专栏人称T客

原生云可期?报告显示将近五分之一的应用将“原生”于云端

撰文 | 飞逸 用户正在逐渐接受原生云模式,但是一些问题尤其是涉及到网络安全和信息保护还是实现跨越的障碍。 原生云软件的出现 到目前为止,实施云策略的目的是将...

367100
来自专栏华章科技

数据是你的生命线,请待她如待初恋

Ben Porterfield 在自己的 Linkedin 主页这样形容自己:一个有经验的冲浪者。除了在 Santa Cruz 海岸冲浪以外,他还帮助一系列初创...

8720
来自专栏竹清助手

高级网络编辑进阶之道:策划+推广

少网络编辑抱怨他们的工作只是网站搬运工,枯燥无味没有技术含量。其实,粘贴--加工--组织--解读是网络新闻的四个层次。普通编辑停留在粘贴和加工的初级阶段,而高层...

14530

扫码关注云+社区

领取腾讯云代金券