首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    跨方向,阿里数据研发九面面经(内推转校招)+书籍推荐自我总结

    说了九次面试感觉我是大神,拿了SP之类,其实并不是,内情就是内推转为了校招,内推五次面试,校招四次面试,在加校招的笔试。本帖子适用于跨专业的人士。sp勿喷,有错别字,勿喷,只是想写个面试经验给以后的人士。 我投递是数据岗位,对于之前我主要搞机器人的我来讲,基本处于什么的都不会的状态,做数据的一般都知道,需要用什么 比如odps,hadoop,flink等等工具,然后做业务需要范式建模,纬度建模等等。我可以真实的告诉大家,之前这些我并不是很熟悉的。以前摸到的数据也只是阿里巴巴数据天池比赛。下面一一叙述开来。

    09

    胖子哥的大数据之路(二)- 大数据结构化数据存储应用模式

    胖子哥是我网名,叫了很多年的网名,网名的来历与自己的沧桑和身材有关,不知是IT改变了我,显得苍老,还是我本就苍老,顺应了IT行业的需要。25岁那面,曾被跟我一样高的漂亮美眉叫叔叔,从此再也不敢打小姑娘的注意,走上了重口味热爱阿姨级别女性的不归路;曾被三十五、六岁的同事阿姨说苍老:看你也就三十五六吧,那年我25;周一的时候,还有一个60后的同事问及我的年龄,他很含蓄的,明显带着保留的口吻问我:你是75年的吧?因为他一直认为和我一般大。然后...然后泪奔。关于体型方面也是个悲剧、三围相等,体重大于身高的角色,算是已经胖出了一定层次,每次听到别人叫我胖子,就感觉小小的自尊多少受到了伤害,然后就给自己在后面加了一个哥子,算是给自己遮半张脸吧。闲话就聊到这里,还是继续胖子哥的大数据之路吧,这次要谈的还是数据仓库。

    02

    维度模型数据仓库(一) —— 概述

    最近看了三本关于数据仓库的书,很有收获,也很受启发。这三本书分别是《数据仓库工具箱(第三版)》、《Dimensional Data Warehousing with MySQL: A Tutorial》和《Pentaho Kettle解决方案》。在仔细研读了这三本书之后,感觉就像是一本书的三个层次。Ralph Kimball的经典著作数据仓库工具箱阐述的是维度建模方法论和按不同行业建模的示例。Dimensional Data Warehousing with MySQL在维度模型的基础上,用MySQL基本的SQL语句实现了各种常见场景下的ETL。而Kettle则是完全以Ralph Kimball提出的34个ETL子系统为理论基础开发出来的工具,以提供GUI的方式实现ETL。三本书的作者都是各自领域的杰出人物,是当之无愧的大神,内容的质量自不必说。但是也有些美中不足,比如工具箱这本书翻译的佶屈聱牙,让人颇为费解。Dimensional Data Warehousing with MySQL中有些错误,可能是印刷原因吧(此书没有中文版),有些按书中代码执行得不到想要的结果。倒是Kettle这本书,译者也是长期从事ETL开发的专业人员,不但翻译的通俗易懂,还适当添加了译者注,指出书中的一些过时的说法,至少对我来说受益匪浅。         有了以上的这些体会,我自然而然地产生一种想法:把几本书中所讲内容用一个完整的示例系统地实验一遍,使用SQL和Kettle两种方式来实现。一来对维度建模方法加深一下印象,二来也是对前段学习的一个总结,三是作为以后做数据仓库相关工作的不时之需。这是第一阶段要做的事情,第二阶段准备用Data Vault模型再做一遍,研究一下这种较新的建模方法。 内容组织: (一)维度模型基础 (二)准备数据仓库模拟环境 (三)初始装载 (四)定期装载 (五)进阶技术 1. 增加列 2. 按需装载 3. 维度子集 4. 角色扮演维度 5. 快照 6. 维度层次 7. 多路径和参差不齐的层次 8. 退化维度 9. 杂项维度 10. 多重星型模式 11. 间接数据源 12. 无事实的事实表 13. 迟到的事实 14. 维度合并 15. 累积的度量 16. 分段维度

    02

    一文了解数据库和数据仓库

    互联网已经高速发展了很多年,各大企业都根据自己的业务搭建了自己的门户网站,拥有自己的服务器,以及自己的用户。用户在对企业的服务进行交互访问时,用户给企业反馈的信息去哪里了?比如说我们最常见的注册信息,企业给到我们的资源从哪里来的?比如说最常见的商品列表。其实这些数据都存放在企业级的数据库当中,离开了数据库,在优秀的架构设计,在优秀的代码都是没有灵魂的。目前企业主流的数据一般分为关系型数据库和非关系型数据库,常见的关系型数据库:mysql,oracle,sqlserver等,常见的非关系型数据库:redis,hbase,mongodb等。数据库的存在,其主要作用是满足在用户和企业服务交互时,满足低时延的增删改查操作。

    02

    大数据数仓建模

    数据库(database)是按照数据结构来组织,存储和管理数据的建立在计算机存储设备上的仓库。     数据库是长期存储在计算机内,有组织的,可共享的数据集合。数据库中的数据指的是以一定的数据模型组织,描述和 存储在一起,具有尽可能小的冗余度,较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。     常用的数据库有mysql,oracle,sqlserver等。作用不一样,数据库是用来支撑业务(1)的,需要响应速度特别快,没 有延时,查询起来都是一条条查询,把相关的数据全部得到,适合用这种关系型数据库。数据仓库主要用来支撑分析的。 问题:公司的多个部门,对相同的数据描述会不一样,在汇总的时候会出问题。

    02
    领券