专栏首页CSDN技术头条Mortar K Young:如何利用Redshift实现大数据集成

Mortar K Young:如何利用Redshift实现大数据集成

K Young, Mortar Data首席执行官和共同创始人,为我们分享了他们如何使用Mortar和Redshift实现大数据集成。

Mortar是一个稳健的可以无缝连接最好的数据技术的平台,使得初创企业可以快速发展坚实的基础。用户可以连接到任何数据源,做任何转换或算法,随后通过一个命令就可以在生产环境获得一个可扩展的,健壮的工作负载。在几天或几周内,Mortar就可完成基础设施、配置、multitech集成、和监测的自动化任务,就让高价值的项目投入生产,而不需要几个月或几年的时间。

Mortar Data CEO兼创始人Mortar K Young

我们来自哪里

我以前是纽约市教育技术公司--Wireless Generation的一名员工。这家公司非常的成功:我们构建了一些真正有趣的产品,公司最终以4亿美元的价格被收购。

但是我和同事有个很棘手的问题。我们发现对于学生使用大数据集学习强大的建模和数据分析的时候,效率真是低得令人沮丧。

差不多同时,新兴的Hadoop生态系统产生的新技术已经可以利用分布式计算大规模并行复杂数据处理任务,就像我们运行学生数据的那些任务。但在这些新技术领域没有资深技术专家,因为对大多数工程师来说入门门槛太高了。

我们决定改变这种状况,于是在2011年创建了Mortar Data公司,为工程师和数据科学家提供一个平台,让他们能够轻松、及时地访问最好的数据技术--去除设置和配置的麻烦,不用头疼基础设施,更不用手足无措的祈求一切顺利不被未知的错误破坏。

大量,杂乱的数据

众所周知,数据无处不在,这也是一个问题。

如果在生产环境中运行app,你会采集用户在app中进行操作的各种数据。你通过网站、CRM和用户沟通交流服务获取的数据,甚至是不起眼的地方的一点小数据都不放过。你明白我的意思。数据无处不在。

财富1000强的企业和其他大公司的问题更糟,他们不仅有大量的数据,而且数据通常遍布许多存储仓,其中一些数据已经不再活跃,只是躺在那里,布满灰尘。

也许每一个数据源在某一个点上来说是有用的,但是不集成所有数据,访问数据存储就无法解决很多大的、重要的方针指定问题。不幸的是,将数据手动的集成到一起几乎是不可能的,特别是处理大量数据的时候。

扫清混乱

为了保持低成本和操作简单,我们利用AWS为用户提供其需求的高效且无限的计算能力。Amazon Redshift,这是亚马逊随需应变型数据仓库,使用ad-hoc查询或集成BI工具作为图形界面来提供了一种理想的方式处理大数据,综合报告和数据分析。Redshift的速度非常快,没有提前委托就可以随需应变,简单并且有伸缩性。所以,2013年才发布的Redshift现在就已经成为AWS有史以来增长最快的服务了。

我们第一次用Redshift分析从自己的网站app收集到的一些数据时,发现了两件事情:第一,Redshift和我们耳闻的是一样的;第二,Mortar是加载一个Redshift数据库最佳的方式。

凡是工作带有“数据”头衔的人都知道,整理和处理数据是一部分巨大的工作。数据生成的表单很少有随时可用的。还需要标准化、处理、整理减少问题字段。

在其他技术中,Mortar平台运行Apache Pig,其执行简单的,可读的,分段数据处理脚本作为分布式MapReduce工作(在亚马逊EMR服务上)。Pig的数据流语言对于转换数据是极其高效,这使得它非常适合从任何数据源中获取混乱的原始数据,并且整理、预处理准备集成的数据。因此,我们马上就发现我们的客户可以集成大数据源——通过利用管道整理数据输入到Redshift的Pig脚本。

但这只是成功的一半。为了真正有用,数据库必须保持数据最新,理想情况是需要最小限度的维护和手动操作。这就是Mortar平台带有的另一部分功能。Spotify开发和开源的Luigi在被无数公司使用(包括Stripe,Capital One,Asana,和Foursquare),是一个用于策划多级数据处理工作的框架,可以结合Luigi和Mortar,一个工程师可以自动化数据管道,包括任何多重依赖技术。

例如,如果任务B取决于任务A,你会希望管道先触发任务A,完成之后再触发任务B。最终,你就可以安排整个管道定期或连续运行了。

这意味着你可以轻松地执行模块化Pig脚本,每个脚本处理不同来源的数据,以及将所有数据自动定期输入到Redshift。这样的管道听起来复杂但实际上是非常有弹性的:如果管道的一部分由于某种原因失败了,Mortar可以自动重试。Luigi会恢复中断处管道的工作,节省了时间和计算成本。加上我们建成了全面监控和警报系统来拯救客户脱离夜不能寐。我们是一群pager-carrying工程师,所以知道这点是多么的重要。

成功案例

当你在初创公司工作,你永远不会知道你工作的通往哪里。例如,当我们开始创立Mortar时,Redshift甚至还不存在,所以我们不知道构建什么能与之紧密配合好,并且当构建好了我们的Redshift功能,也不知道谁会使用它或者它会为客户开放哪种新发现。

因此,大约一个月以前,我们兴奋地阅读了Michael Erasmus写的博客,他是我们的客户——Buffer公司的一位工程师。Buffer在使用Mortar建立一个新架构将数据持续输入到Redshift之前是被“淹没在数据”中的。

在Redshift上运行图形化BI工具Looker,Buffer所有突然出现的数据对公司每个人需要它的人都是立即可用的。Erasmus说,即使是技术不太好的团队成员“都能快速上手Looker并满足自己的数据需求,想出惊人的见解真的很快。”

通过Redshift,Buffer公司任何人现在都可以在短时间内分析5亿条记录,而不是等待数据团队的某个人为他们写一个定制查询。这是他们从度量和分析过程中删除了的巨大瓶颈,应该能帮助他们为客户提供更好的服务。我们为创建出帮助他们这么做的东西感到非常自豪。

继续前进

我们的客户现在使用Mortar来生成建议,运行预测分析,构建机器学习模型,以及使用Amazon Redshift集成多个数据源到中心的、可进的、易查询的数据库。应用工具诸如Redshift,我们正在推进使命任务让客户免于花费90%的时间到模板任务上,这样他们就可以花100%的时间解决具体业务上有趣的问题。

原文链接:https://medium.com/aws-activate-startup-blog/modern-data-integration-with-mortar-and-redshift-fed7aff67519

本文分享自微信公众号 - CSDN技术头条(CSDN_Tech)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2014-12-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 空谈无益,草根需要真正的大数据思维

    【编者按】很多人都在谈论大数据,不谈大数据好像跟不上时代,但是很多人没有任何实践就开始抛出一个结论,然后又有一大群人开始追随这个结论。大数据不是任何人都能去做的...

    CSDN技术头条
  • 来自大数据的反思:需要你读懂的10个小故事

    自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、政治、社会等...

    CSDN技术头条
  • 趣味解析,斗鱼直播大数据的玩法儿

    作者 | 吴瑞诚 文章来源GitChat,CSDN独家合作发布,查看交流实录:http://gitbook.cn/books/58f8d1b07624530e...

    CSDN技术头条
  • Kettle(PDI)的坑,有点大

    网络上有不少Kettle的文章,但实际上都大同小异,都是些非常基础的文章,实际上在使用过程中还有遇到不少的坑,这部分在网上资料比较少,这里主要讲一下我们在使用过...

    源哥
  • 【译】图论科学家教你如何安排婚礼座次

    大数据文摘
  • 资源 | GitHub上的五大开源机器学习项目

    机器之心
  • 互联网经典SQL面试题及答案解析

    --学生表 Student(SId,Sname,Sage,Ssex) --SId 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别 ...

    TOMOCAT
  • 全球最大市值20家公司更替,下一轮市场机遇在哪?

    19世纪的创业机会集中于欧洲市场和传统行业,20世纪的创业机会集中于美国市场和IT行业,21世纪的创业机会集中于中国市场和互联网新兴行业。

    华章科技
  • mysql的一些常用操作(二)

    select course.cname '课程名称',count(*) '人数' from score,course where score.CId=cours...

    绝命生
  • SQL | 44道经典 SQL 笔试题与答案解析

    --学生表 Student(SId,Sname,Sage,Ssex) --SId 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别 --课...

    咸鱼学Python

扫码关注云+社区

领取腾讯云代金券