首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据和云计算硬币的正反面

2014年7月,阿里云ODPS项目正式对外开放。...经过五年的积累,阿里云计算发布核武器级别的大数据产品——ODPS。通过ODPS在线服务,小公司与小团队可以对拥有的海量数据进行快速分析挖掘。...到底什么是ODPS 简单来说,ODPS(Open Data Processing Service)是一项Web服务,大家不用花大钱建数据中心,就能分析海量数据。...ODPS到底能做些什么 在国内,说得再好不如有个好的案例。ODPS已经在阿里内部进行了大量的使用与测试。...阿里内部的登月计划 2013年10月,为了融合阿里小贷和支付宝的数据,支付宝希望ODPS团队协助他们搬家,将支付宝数仓业务从Hadoop机群搬到ODPS上,登月1号项目启动。

1.6K60
您找到你想要的搜索结果了吗?
是的
没有找到

如何快速搭建一个类似于神策数据或诸葛IO的数据分析平台?

阿里大数据计算平台好像也是今年9月份左右开始对外公测,之前的名称叫做ODPS,后来改名叫做大数据计算服务(MaxCompute),虽然对于我来说都一样拗口难懂(后面我就用ODPS来统一代指这个服务)……..., 数据运算和运维则基于ODPS实现多人协作开发数据处理任务并进行上线管理。...步骤一:同步LogStore和RDS Mysql数据到ODPS数据库表 1、LogStore的数据同步 基本做法就是在IDE的数据管理模块中创建和LogStore相同结构的ODPS表,然后回到日志服务控制台相应的...(非常有用的是,在ODPS表中可配置一个时间分区,按天同步日志,这样方便的实现后面的按天调度和计算任务,也可以提升查询效率)。...图7 数据同步任务开发 步骤二:基于ODPS数据库表的定时任务开发 步骤一基本上完成了数据在ODPS平台上的准备,如每日的用户行为数据和注册数据,下面所需的就是开发定时计算任务了(如计算每天的七日留存指标

2.7K60

SQL解析过程详解

作者:一帅 简介 SQL任务是ODPS中使用最频繁的一类作业,大部分用户开始使用ODPS时要做的第一件事情就是学习怎么写ODPS的SQL。...ODPS SQL是一种非常灵活的语言,兼容大部分的SQL92规范,也对大规模计算场景做了一些特别的定制。...ps.由于一些历史包袱和工程实现的原因,ODPS某些内部实现细节可能与本文提到的不一致 语法分析的作用是将一个输入的‘字符串’变换为一个描述这个字符串的‘结构体’,让计算机可以更容易的理解用户输入的字符串是什么意义...ps.在ODPS中,真实的抽象语法树会复杂许多,为了方便大家理解,我将输出的抽象语法树做了一些简化。...还是使用逻辑查询计划生成的那个例子来描述一下物理查询计划是什么样子: ? 现在,又进入了一个优化的环节。

3.4K20

洞察|淘宝大数据之路:回顾这些年淘宝大数据所经历过的故事

第三个阶段:MaxCompute(原ODPS)时代 就在Hadoop大量应用的同时,另外一个项目正在悄悄进行,那就是阿里云团队自主研发的ODPS系统,ODPS所有的代码都由阿里自己完成,在统一、安全、可管理...、能开放方面相比于Hadoop做了大量的完善,ODPS系统命名为云梯二,从2010年开始,在很长一段时间内,一直处于云梯一和云梯二并存的状态; 这期间,集团为更好的打造数据生态,成立了CDO,统一数据平台事业群...元数据血缘系统、数据质量管理系统、还有DQC等; 这个状态持续到2013年4月, 这时出现了一个新的挑战,Hadoop集群的上限是5000个节点,按照当时数据增长数据的推算,集群存储即将撞墙,但是基于当时的状况,ODPS...”,同时进行云梯一和云梯二的跨机房集群项目,当时世界上没有任何一家公司具备跨机房的能力,存在非常大的技术挑战,最后项目历经近5个月的周期,攻克大量技术难点,项目取得了成功; 在“5K项目”成功的同时,ODPS...架构逐步成熟,于是全集团又启动了一个规模更庞大的项目,叫做“登月项目”,将全集团的数据加工应用全部搬移到ODPS,项目一直持续到2015年,Hadoop正式下线,淘宝大数据彻底进入ODPS时代,整个数据的生态圈也越来越丰富

2.5K50

蚂蚁金服杨军:蚂蚁数据分析平台的演进及数据分析方法的应用

第二,在数据存储与计算里面,从下往上看上图,第一是比较多的、传统的批量计算,就像ODPS,Spark,还有最新的一些框架,比如Ray,Ray在蚂蚁变种就是Raya。...但是那时候大部分数据在一个比较慢的ODPS,性能用户接受不了,还有一个就是权限模块。1.0版本大家可以理解成一个简单的报表工具,他的查询能力这些都不是很完备。...第二数据特征,就是数据分布是什么样的,第三还有一些用户特征,比如蚂蚁的高管优先级更高一些,会给他一些执行比较快的引擎。...有了这些以后我去提取特征,提取特征就有维度,就有普通度量,distinct度量,还有表/子查询,是哪张表,是哪个子查询,他的筛选条件是什么,他的耗时是什么。...,首先第一步看看问题是什么

98210

跨方向,阿里数据研发九面面经(内推转校招)+书籍推荐自我总结

我投递是数据岗位,对于之前我主要搞机器人的我来讲,基本处于什么的都不会的状态,做数据的一般都知道,需要用什么 比如odps,hadoop,flink等等工具,然后做业务需要范式建模,纬度建模等等。...上次学了很多基础的课程,但是数据仓库并不算是,我开始学习odps工具箱,我知道这个很重要,但是没学习过。...真的很巧就问了ODPS的问题,我基本都答上来了,但是他说了一句 ,懂是懂,就是没有项目经验。我一脸尴尬。还有问了关于维度表设计,我不会。但是我记住了。...这样记住他们用的工具,以及业务都是什么,这样的话,你接下看啥你就知道了。 3. 有个自己的学习的方式,我的方式是看书,在不断学习的过程,还要总结。...三范式是什么,举例子 4. 数据中的事务是什么,mysql中怎么实现的 5. C++多态性是如何理解,和java怎么区分 6. 说排序的种类,并且告诉我他们为什么这么区分。

1.2K90
领券