首页
学习
活动
专区
工具
TVP
发布

九州牧云

专栏成员
159
文章
378856
阅读量
29
订阅数
电商数据应用体系建设总结(三)—— 离线数据兜底方案
目前我们使用 Lambda 架构来处理数据,Flink 处理实时数据,Spark 处理离线数据。Spark 离线任务在每天凌晨的 0-8 点调度执行,在这段时间内,用户是看不到昨日未产出的离线数据的,数据应用对这些未产出的指标进行了特殊处理,用户看到的未产出的指标数据为 0 或者 —。但在没有任何提示的情况下,用户不明白为什么会有这样的情况,给用户带来不好的使用体验。因此,我们需要一套离线数据兜底方案来解决昨日离线数据未产出,导致用户看数体验下降的问题。
九州暮云
2022-07-21
5150
电商数据应用体系建设总结(二)—— 数据应用层架构介绍和规范总结
数据经过ETL、存储等数据处理过程之后,通过数据应用产品的形式呈现给最终使用方,PC和APP类数据产品以各类不同用途的数据大屏、看板将数据指标展示给管理者、运营和业务人员,数据应用后端也会为商城、CRM等业务团队开发出一些restful类型的数据接口,供他们取数使用。
九州暮云
2022-05-09
5890
电商数据应用体系建设总结(一)—— 数据应用架构剖析
数据应用是通过各种各样的数据分析方式将数据展示出来,给决策者、管理者、运营等人员透传数据价值的工具,帮助决策者、管理者及时调整战略目标、公司目标、业务目标,帮助运营人员更好地实现精细化运营、提升运营效率。
九州暮云
2022-05-09
5980
滴滴 x StarRocks:极速多维分析创造更大的业务价值
滴滴集团作为生活服务领域的头部企业,正在全面测试和上线StarRocks,其中橙心优选经过一年多的数据体系建设,我们逐渐将一部分需要实时交互查询、即席查询的多维数据分析需求由ClickHouse迁移到了StarRocks中,StarRocks在稳定性、实时性方面也给了我们良好的体验,接下来以StarRocks实现的漏斗分析为例介绍StarRocks在橙心优选运营数据分析应用中的实践。
九州暮云
2021-09-29
6970
HDFS 客户端读写超时时间解析
前段我们Hadoop集群磁盘使用率比较高,部分硬盘空间使用超过了70%,这部分服务器的DataNode服务读写负载就比较高,造成部分数据同步任务因为读写超时而失败。具体场景和异常跟这篇博客里描述的很像。
九州暮云
2020-10-29
3.9K0
Redis AOF重写阻塞问题分析
某个业务线使用Redis集群保存用户session数据,数据量大约在4千万-5千万,每天发生3-4次AOF重写,每次时间持续30-40秒,AOF重写期间出现Redis主进程阻塞,应用端响应超时的问题。
九州暮云
2020-05-26
5.3K1
ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析(三)
这个问题又让我们碰到了,发生次数不频繁但是一旦发生就会造成ResourceManager服务崩溃、ZK注册watch过多等问题。不彻底解决这个问题心中一直是个梗,所以基于前两次的分析和阅读社区最新版Hadoop 3.2.1代码之后,给生产环境YARN打patch最终解决这个问题。对于疑难问题,每遇到一次就有一次不同的感悟,接下来是我本次分析和解决该问题的过程记录。前两次解决和分析该问题的记录如下:
九州暮云
2020-05-18
2.1K1
大压缩文件对Impala查询性能的影响
Hadoop/HDFS/MapReduce/Impala被设计用于存储和处理大量文件的场景,比如TB或者PB级别数据量的文件。大量小文件对查询性能有很大的影响,因为NameNode要保存大量的HDFS文件元数据,一次性查询很多分区或者文件的话,需要获取文件列表并一个个读取文件信息,不仅会对查询性能造成很大的影响,还可能会超过操作系统的文件描述符数量限制而导致查询失败。
九州暮云
2020-04-24
8080
YARN Fair Scheduler批量分配功能调优总结
YARN调度效率不高,队列资源充足,集群中正在运行的任务数量少,资源利用率低的情况下有一部分任务排队,等待分配资源时间长。
九州暮云
2020-02-18
2.5K1
一步一步理解Impala query profile(四)
在本系列的第三部分,我使用了一个示例来详细地介绍Impala query profile。在这一部分中,我将使用一个真实生产系统的Impala Profile文件,解释我在遇到问题时阅读Profile文件的步骤,并逐渐找到引起问题的真正原因。如果你错过了我的文章的前3个部分,你可以点击以下链接阅读一下:
九州暮云
2020-02-18
7730
利用反射实现状态同步
Java反射使我们能在程序运行时动态调用某个对象的方法/构造函数、获取某个对象的属性,经常用于实现动态代理、工厂模式、Java JDBC加载连接驱动类等,近期阅读开源项目源码发现,它还有一种重要的用途——状态同步。
九州暮云
2019-12-20
4820
一步一步理解 Impala query profile(三)
在本博客系列的第3部分,我将仍然关注查询计划(Query Plan)和执行摘要(Execution Summary),但是将使用真实数据(Kaggle’s Flights Delay database),来执行一个更复杂的查询。
九州暮云
2019-12-16
1.5K0
一步一步理解Impala query profile(二)
在上一篇文章中,我们介绍了Impala query profie的概要部分,在本篇文章我们介绍Profile的查询计划(Query Plan)和执行概要(Execution Summary)部分。
九州暮云
2019-12-16
1.7K0
一步一步理解Impala query profile(一)
很多Impala用户不知道如何阅读Impala query profile来了解一个查询背后正在执行的操作,从而在此基础上对查询进行调优以充分发挥查询的性能。因此我想写一篇简单的文章来分享我的经验,并希望它可以对希望了解更多信息的人有所帮助。
九州暮云
2019-12-16
9870
(译)优化ORC和Parquet文件,提升大SQL读取性能
本文编译自IBM开发者社区,主要介绍了HDFS中小的ORC和Parquet文件的问题,以及这些小文件如何影响Big SQL的读取性能,并探索了为了提高读取性能,使用现有工具将小文件压缩为大文件的可能解决方案。
九州暮云
2019-10-08
2.7K0
YARN任务监控界面Aggregate Resource Allocation指标解析
在YARN的原生任务监控界面中,我们经常能看到Aggregate Resource Allocation这个指标(图中高亮选中部分),这个指标表示该任务拥有的所有container每秒所消耗的资源(内存、CPU)总和:
九州暮云
2019-09-02
2.9K0
Scala 枚举的使用和探索(译)
枚举(Enumerations)是一种语言特性,对于建模有限的实体集来说特别有用。一个经典的例子是将工作日建模为一个枚举:每个七天都有一个值。Scala和许多其他语言一样,提供了一种表示枚举的方法:
九州暮云
2019-08-21
2.1K0
Error: Your Command Line Tools are too outdated
解决方式:使用App Store账号登录开发者中心:https://developer.apple.com/xcode/,然后转到https://developer.apple.com/download/more/,点击下载下图所示的安装包安装即可:
九州暮云
2019-08-21
2.1K0
redis原子性读写操作之LUA脚本和watch机制
最近在开发电商平台的子系统——储值卡系统,系统核心业务涉及到金额消费以及库存控制,由于redis事务并不能保证操作的原子性,因此为了解决建立在内存上高并发情况下的事务控制,使用了spring封装的RedisTemplate执行lua脚本进行原子性操作,确保金额消费,库存按顺序处理,解决资源争抢。
九州暮云
2019-08-21
2.1K0
链表
链表(Linked list)是一种常见的基础数据结构,是一种线性表,但是并不会按线性的顺序存储数据,而是在每一个节点里存到下一个节点的指针(Pointer)。由于不必须按顺序存储,链表在插入的时候可以达到O(1)的复杂度,比另一种线性表顺序表快得多,但是查找一个节点或者访问特定编号的节点则需要O(n)的时间,而顺序表相应的时间复杂度分别是O(logn)和O(1)。 使用链表结构可以克服数组链表需要预先知道数据大小的缺点,链表结构可以充分利用计算机内存空间,实现灵活的内存动态管理。但是链表失去了数组随机读取的优点,同时链表由于增加了结点的指针域,空间开销比较大。
九州暮云
2019-08-21
5250
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档