前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >LinkedIn开源大数据计算引擎 Cubert,并为此创建新的语言

LinkedIn开源大数据计算引擎 Cubert,并为此创建新的语言

作者头像
CSDN技术头条
发布2018-02-08 17:16:44
8340
发布2018-02-08 17:16:44
举报
文章被收录于专栏:CSDN技术头条CSDN技术头条

【编者按】Linkedin周二宣布开源其大数据计算引擎Cubert,其名字来源于鲁比克方块(Rubik’s Cube),为了让开发人员更容易使用Cubert,而无需做任何形式的自定义编码,Linkedin为此开发了新的编程语言Cubert Script。

以下为译文:

Linkedin周二宣布开源其大数据计算引擎Cubert,这个框架可以使用一种专门的算法来组织数据,让其在没有超系统负荷和浪费CPU资源的情况下,更轻松的运行查询。

Cubert,其名字来源于鲁比克方块(Rubik’s Cube),据悉,它可以作为一个Java应用程序,从而很容易被工程师接受,它包含一个“类似script用户界面”,因此工程师可以在运行查询时,使用诸如MeshJoin和Cube算法在组织数据上节省系统资源。

从LinkedIn博客我们知道:

现存引擎Apache Pig、Hive以及Shark提供一个合乎逻辑的声明性语言,然后被翻译成一个实物计划。这个计划执行分布式引擎(Map-Reduce、Tez或者Spark),在此物理操作者针对数据分区执行。最后,数据分区将由HDFS提供的文件系统抽象管理。

Cubert 架构

Cubert运行在Hadoop之上,新的框架可以抽象所有的存储到数据块,这将除了让操作者能帮助更好的管理数据之外,还能让其更易于运行它的资源节约算法,例如,COMBINE操作者可以合并多个数据块在一起,PIVOT操作者可以创建数据块的子集。

LinkedIn也创建了一门名为Cubert Script的新语言,其目的是使开发人员更容易使用Cubert,而无需做任何形式的自定义编码。

LinkedIn现在使用Cubert作为一个关键组件来处理数据。当Kafka实时消息传递系统从LinkedIn的众多应用程序中获取所有信息并将其发送到Hadoop,Cubert然后处理这些数据,以确保它不占用系统资源并帮助工程师解决“各种各样的统计、分析和图形计算问题。”

被处理后,数据流向LinkedIn的Pinot实时数据分析系统,然后该公司分析其众多数据跟踪特性,如最近谁查看了用户的资料。

LinkedIn Data Pipeline

现在Cubert已经和LinkedIn的基础设施连接,公司不再担心Hadoop脚本终结“在集群上占用太多资源”或浪费时间去做他们为此应该做的。

原文:LinkedIn open sources Cubert, a big data computation engine that saves CPU resources (责编/魏伟)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CSDN技术头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档