最近开始上手一个大数据离线数仓项目。本篇博客先为大家进行一个总体的介绍,包括各个阶段的任务以及项目的简介,环境,需求等等…
双十一余韵未歇,刚处理完一波售后及退件等“剁手后遗症”的各方人马也已经为再战双十二做好了准备。截至 12 日零点,天猫双十一成交额达 2135 亿元。与此同时,据国家邮政局监测数据显示,主要电商企业 11 日全天共产生快递物流订单 13.52 亿件,各邮政、快递企业共处理 4.16 亿件,再创历史新高——这一系列庞大的数字背后,是否也包含了你的战绩?随手滑开购物界面,是否曾被“猜你喜欢”中的某样单品达成取向狙击,看穿你的心意?
2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数据平台,就是其中非常重要的一个组成部分,承担了数据采集、加工处理、数据应用的职责,淘
双十一将至,购物车装的怎么样了?每年一到这时候,各大商家都已开始密集部署活动,等你剁手。
为什么页面显示都是自己所心水的东西?为什么现在的快递速度那么快? 9小时的时间,今年双十一仅淘宝天猫的交易额就达到了1000亿。 作为买买买的主力军,先问大家一个问题:购物车里面的东西都清空了吗?是不是还在一边在内心哭着喊着要剁手,一边忍不住的动手一键下单购买呢? 虽然双十一发福利的花样越来越多,令许多人恨不得不参加双十一,但是,很多人还是会时不时地打开淘宝、天猫等购物类APP逛一逛,看到中意的就直接加入购物车……按照淘宝双十一期间逐年提高的交易额来看,相信在接下来的日子里,国内外朋友都会被快递包裹所包围。
高速性(velocity):大数据要求处理速度快,比如淘宝双十一需要实时显示交易数据
容器技术提供了一种标准化的交付方式,将应用的代码以及代码环境依赖都打包在一起,成为一个与环境无关的交付物,可以被用在软件生命周期的任何阶段,彻底改变了传统的软件交付方式。
说到大数据处理可能大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角
后台很多小伙伴都在问Flink的学习路径,那么我们在学习Flink的时候,到底重点学习哪些东西呢?
今天在移动端,尤其是像手机淘宝这样的 app 中,动态性问题逐渐成为一个比较棘手的问题。所谓动态性,就是把移动应用本身的灵活性、迭代更新的周期和成本优化到极致。比如手机淘宝的店铺首页,它允许商家实时装修自己的店铺,更新自家的商品、活动等信息;再比如淘宝、天猫每次大促的会场页面,要求我们非常灵活的及时调整界面信息和状态,确保在瞬息万变的活动当天紧跟促销节奏,应对各种突发情况。
在过去的这几年时间里,以 Storm、Spark、Flink 为代表的实时计算技术接踵而至。2019 年阿里巴巴内部 Flink 正式开源。整个实时计算领域风起云涌,一些普通的开发者因为业务需要或者个人兴趣开始接触Flink。
阿里江湖中,很多资源和技术,如神龙服务器、OceanBase、POLARDB等等,在开源、自研、云这三架马车上形成协同效应,既是内功也是武器。
明天就是双十一了,看了看自己手里的卡的像IE浏览器的手机,感觉可能等不到5G普及了。
又是一年“双十一”,如何尽最大努力阻击阿里巴巴是各大电商平台的首要任务。近日,苏宁易购、京东接连召开发布会,价格不再是重点,一场由云计算拉开的线上线下购物体验升级正在上演。
做数据和用数据的人绕不开的问题是数据的时效性,离线数据、实时数据分别指的是什么,业务应用时,究竟该以什么标准选择呢?很多业务产品或运营搞不懂两者的区别。提数据分析需求,想着肯定越实时越好,数据团队怎样
关于数据仓库的概念、原理、建设方法论,网上已经有很多内容了,也有很多的经典书籍,本文更想聊聊企业数据仓库项目上的架构和组件工具问题。
紧张精彩的2015年已经结束了,现在是时候回过头来看一看数据分析软件市场的潮流。 已经有几个趋势继续变得壮大(比如开源,云托管,基于Hadoop的SQL解决方案),同时AWS上的Redshift开始成为数据仓库中的一支重要力量。 SQL解决方案继续在Hadoop的生态系统里大行其道 除了Spark,大部分Hadoop的生态系统里的新闻都来自Presto, Impala and Drill。 关于MapReduce继任者的斗争还在持续,而在列表中的所有候选者的一个主要的共同点就是他们都提供SQL界面。这个趋势
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
双11结束了,1207亿全天成交额再破纪录。尽管这个活动只有24小时,但其给中国带来的影响却是深远的。正如科技评论人Keso在文章中的评论:“马云改变了中国”。马云在双11晚会上的总结是,双十一的成交
👆点击“博文视点Broadview”,获取更多书讯 最近有不少小伙伴在问有没有架构类的书单,博文菌收到了大家的需要,这就安排上! 俗话说:不想当架构师的程序员不是好程序员。成为架构师几乎是每位开发者入行初期的共同理想。 如何站在架构的视角去看代码世界,如何依托企业业务需求搭建可高用架构,云端架构的设计原则有哪些…… 本期书单为你带来今年出版的10本架构类好书,希望能够帮你建立架构思维,解开架构谜团! ---- 01 ▊《业务架构・应用架构・数据架构实战(第2版)》 温昱 著 国内知名架构专家创新
双十一晚会上,ET在全国观众面前玩了一把魔术,瞬间震惊了众多吃瓜群众,所受到的关注不亚于春晚的刘谦。在晚会结束之后,除了阿里云官方,也有不少大牛对此魔术进行了分析。其中的秘密,既然有这么多人急着届时,镁客君就不在此多加赘述了。 经过众人的分析,我们可以发现,ET表演的魔术其实并不太难,成功的关键在于魔术表演中所show出来的人工智能技术。据阿里云官方解密,在这场震惊全国的魔术中,ET所运用到的人工智能技术主要包括人脸识别、语音识别和智能语音交互。 此前,阿里巴巴也搞过类似于ET变魔术的这种pr手段,而那一次
数仓建设是公司数据发展到一定规模后必然会提供的一种基础服务,其中数仓建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。
曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则:
数说君导读:MNN,Mobile Neural Network,用于在智能手机、IoT设备等端侧加载深度神经网络模型,进行推理预测。支持 Tensorflow、Caffe、ONNX 等主流模型格式,支持 CNN、RNN、GAN 等常用网络。这是阿里开源的首个移动AI项目,已经用于阿里手机淘宝、手机天猫、优酷等20多个应用之中。覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景。在IoT等移动设备场景下,也有若干应用。
MNN 是一个轻量级的深度学习端侧推理引擎,核心解决深度神经网络模型在端侧推理运行问题,涵盖深度神经网络模型的优化、转换和推理。目前,MNN 已经在手淘、手猫、优酷、聚划算、UC、飞猪、千牛等 20 多个 App 中使用,覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景,每天稳定运行上亿次。此外,菜鸟自提柜等 IoT 设备中也有应用。在 2018 年双十一购物节中,MNN 在天猫晚会笑脸红包、扫一扫明星猜拳大战等场景中使用。
8月15日,菜鸟联盟首个自动化仓库在广州增城正式开仓,我有幸进行了参观。 先简单介绍下这个仓库: 这个仓库位于菜鸟增城物流园区,专门为天猫超市提供仓储和分拣服务,与别的仓库最大不同是自动化程度高,从收到订单到包裹出库,除了条码复核等环节均实现了自动化。 用户在天猫超市下单之后,仓库会收到订单并生成唯一条码,纸箱被机器贴上条码之后,将会被传送带运送到不同商品品类的货架,货架电子屏会显示需要装入的商品和数量,分拣员据此将商品放入纸箱,纸箱接着再进入下一站。所有商品装好之后纸箱到达“收银台”人工复核和封装出库,再
不出所料,这次的“双11”购物节中,阿里、京东、苏宁、唯品会等电商平台纷纷升级了各种新玩法吸引顾客。从衣食住行到吃喝玩乐,电商平台所提供的服务覆盖面越来越广,服务体验也在不断提升, 而今天的热搜也几乎全部围绕着“双11”——“双十一1分36秒破100亿”“双十一付尾款时的我”“高中生用函数模型做双11攻略”……
12月20日,在腾讯2020 Techo Park开发者大会大数据专场上,腾讯云大数据产品总经理聂晶对数据仓库近30年发展历程做出总结,并分享了他对目前行业的认知以及未来发展的判断。聂晶表示,当前技术环境变化飞速,单一主体企业难以应对数仓领域爆发式发展挑战,腾讯云希望通过开放开源的生态给用户带来更为透明和精细化的技术及产品服务,助力企业生产力加速提升。 数据仓库从1991年被正式提出,历经近30年的发展历程,企业对数据仓库的重要性感知愈加强烈,同时数据仓库在企业端越来越走向成熟和理性。 “企业不再停留
2020年12月20日,在腾讯2020 Techo Park开发者大会大数据专场上,腾讯云大数据产品总经理聂晶对数据仓库近30年发展历程做出总结,并分享了他对目前行业的认知以及未来发展的判断。聂晶表示,当前技术环境变化飞速,单一主体企业难以应对数仓领域爆发式发展挑战,腾讯云希望通过开放开源的生态给用户带来更为透明和精细化的技术及产品服务,助力企业生产力加速提升。
多线程是完成任务的一种方法,高并发是系统运行的一种状态,通过多线程有助于系统承受高并发状态的实现。
在互联网的世界中数据都是以TB、PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习,如双十一淘宝的交易量的实时展示。 大数据什么叫大?4个特征: 体量化 Volume,就是量大。 多样化 Variety,可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等 快速化 Velocity,产生快,处理也需要快。 价值密度低 Value,数据量大,但单个数据没什么意义,需要宏观的统计体现其隐藏的价值。
Snova为您提供简单、快速、经济高效的PB级云端数据仓库解决方案。借助于Snova,您可以在数分钟内创建拥有数百节点的企业级云端数据仓库,并高效的完成日常维护工作;也可以使用丰富的Postgre开源生态工具,实现对Snova中海量数据的即时查询分析、ETL处理及可视化探索;还可以借助其云端数据无缝集成特性,轻松分析位于COS、CDB、ES等数据引擎上的PB级数据。
当数据仓库可以处理非结构化数据,而数据湖可以运行分析时,组织如何决定使用哪种方法?这取决于其需要采用数据回答新问题的频率。 传统上,数据仓库收集来自组织业务的所有结构化数据,因此组织可以将其集成到单个
熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;
【名词科普之“去IOE”:指的是摆脱掉IT部署中原有的IBM小型机、Oracle数据库以及EMC存储的过度依赖。于2009年首先由阿里巴巴作为战略提出。其做法是用成本更加低廉的软件(如MYSQL替代Oracle)以消除“IOE”对自己数据库系统的垄断。这一行动也被业内解读为低成本化的表现,因为云服务一旦扩张,IOE系统的维护成本将非常高。】 余额宝、百度百发、腾讯财付通谋划的互联网理财工具,吹响了互联网对金融行业的进军节奏。而后,网易、和讯、京东商城、苏宁云商等二线实力企业纷纷涉水。另一边,一众金融精英也在
数据仓库项目跨功能需求开发不够完善,导致的各种问题,就我个人经验来说,主要体现在数据建模不够标准和ETL日志体系不够完善两个方面,本文会详细介绍一下,如何从跨功能需求的角度,构建标准的数据建模和完善的ETL日志体系。
近年来,全球公共云服务市场蓬勃发展,这并不令人感到惊讶。受到物联网(IoT)增长的推动,每天创建的数据量达到了惊人的2.5艾字节。存储、分析、利用数据对于企业在大数据时代的生存至关重要,实现这一目标的唯一方法是采用云计算技术。
特步集团有限公司是中国领先的体育用品企业之一,主要从事运动鞋、服装及配饰的设计、开发、制造和销售。为了提高特步零售 BI 主题数据分析的准确性和时效性,降低对 SAP HANA 平台的依赖,2020 年 11 月特步集团首次引入了 Apache Doris 进行数据仓库搭建试点。在经历实时日报(移动端)和《特步全网零售战绩》大屏两个小项目的成功后,于 2021 年 3 月开始逐步启动特步儿童 BI、特步电商 BI、双十一大屏、特步新品牌 BI 等多个项目,经过一年的努力,初步完成了基于 Apache Doris 的零售数据仓库搭建和上线运行。
确实,如果从一个初学者来说这些技术可能大家听起来会很容易觉得混淆,他们到底是什么样的一些关系?我为大家去简单的梳理一下。
分布式系统中,我们广泛运用消息中间件进行系统间的数据交换,便于异步解耦。现在开源的消息中间件有很多,前段时间我们自家的产品 RocketMQ (MetaQ的内核) 也顺利开源,得到大家的关注。
https://flink.apache.org/zh/usecases.html
机器之心原创 作者:徐丹 11 月 11 日零点刚过 26 秒,天猫双十一订单峰值产生,58.3 万笔 / 秒。 11 月 1 日零点至 11 月 11 日零点 30 分,今年整个双十一成交额破 3723 亿,实时成交额超过 1 亿元的品牌超过 300 个。 这是今年阿里交出的双十一成绩单。不断增长的订单数据背后,今年的消费体验也出现了很多变化,付款不再卡顿、快递速度极快… 盛大的消费狂欢过去后,来盘点一下,阿里用什么技术撑住了双十一? 一、阿里双十一技术发展史,从去 IOE 说起 从最底层来说,支撑双十一
在企业数字化转型的当下,数据仓库的云端构建成为主流趋势,Gartner 预测,到2023年全球3/4的数据库都会跑在云上。
为什么要数据仓库建模呢? 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。 数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”,最能够说明数据模型
未来的电子商务被称作是大数据电商。按照大数据电商的定义,未来的大数据电商至少包含如下三个方面,一是O2O,即线下与线上的结合;二是实交化,即用户与厂商之间的积极互动;三是个性化,即千人千面。 双十一硝烟尚未散尽,各大电商已经开始盘点今年战果。其中京东在11日0点至10点期间,订单数量达到去年同期的2.4倍。在京东各品类商品中,手机品类订单量达到去年同期的3倍,明显高于整体增长。同时,移动端订单量的占比也是去年同期的3倍。移动端普及不能忽视在今年双十一中,京东新引入的微软著名“黑科技”——人工智能管家小
在企业数字化转型的当下,数据仓库的云端构建成为主流趋势,Gartner 预测,到2023年全球3/4的数据库都会跑在云上。 12月20日,腾讯2020 Techo Park开发者大会大数据分论坛在北京召开。腾讯数据平台部数据中心技术总监于洋、腾讯云大数据首席产品架构师高廉墀以及腾讯云大数据团队 Ozone 项目技术负责人陈怡等嘉宾出席大会,并探讨了数据仓库的多元技术,聚焦云端数据仓库的热潮,展现腾讯数据仓库技术架构演进与未来发展。 云原生数据仓库成为风口,助力解决企业数据仓库转型升级 从企业数字化转型看,
根据最近的信息,著名的创业公司,云端数据仓库提供者Snowflake经过最近一轮的融资,其市值已经达到120亿了。这是一个很多创业公司上市之后都很难达到的高度。做个对比,我前东家Tableau在上市后很长时间里,市值的高点也没超过100亿。
这是《未来简史》中提出的三个革命性观点。一本书短短百页,让我们看到了世界颠覆性的变化,从计算机,到互联网,再到大数据、人工智能,所有的变化都在以一种肉眼可观却又无法捕捉的状态悄然发生着,而推动变化发生的背后,则是数据价值的提升。
数据,对一个企业的重要性不言而喻。如何利用好企业内部数据,发挥数据的更大价值,对于企业管理者而言尤为重要。作为最传统的数据应用之一,数据仓库在企业内部扮演着重要的角色。构建并正确配置好数据仓库,对于数据分析工作至关重要。一个设计良好的数据仓库,可以让数据分析师们如鱼得水;否则是可能使企业陷入无休止的问题之后,并在未来的企业竞争中处于劣势。随着越来越多的基础设施往云端迁移,那么数据仓库是否也需要上云?上云后能解决常见的性能、成本、易用性、弹性等诸多问题嘛?如果考虑上云,都需要注意哪些方面?目前主流云厂商产品又有何特点呢?面对上述问题,本文尝试给出一些答案,供各位参考。本文部分内容参考了MIT大学教授David J.DeWitt的演讲材料。
领取专属 10元无门槛券
手把手带您无忧上云