资深数据开发工程师

九州牧云

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

目前我们使用 Lambda 架构来处理数据，Flink 处理实时数据，Spark 处理离线数据。Spark 离线任务在每天凌晨的 0-8 点调度执行，在这段时间内，用户是看不到昨日未产出的离线数据的，数据应用对这些未产出的指标进行了特殊处理，用户看到的未产出的指标数据为 0 或者 —。但在没有任何提示的情况下，用户不明白为什么会有这样的情况，给用户带来不好的使用体验。因此，我们需要一套离线数据兜底方案来解决昨日离线数据未产出，导致用户看数体验下降的问题。

电商数据应用体系建设总结（三）—— 离线数据兜底方案

数据经过ETL、存储等数据处理过程之后，通过数据应用产品的形式呈现给最终使用方，PC和APP类数据产品以各类不同用途的数据大屏、看板将数据指标展示给管理者、运营和业务人员，数据应用后端也会为商城、CRM等业务团队开发出一些restful类型的数据接口，供他们取数使用。

电商数据应用体系建设总结（二）—— 数据应用层架构介绍和规范总结

数据应用是通过各种各样的数据分析方式将数据展示出来，给决策者、管理者、运营等人员透传数据价值的工具，帮助决策者、管理者及时调整战略目标、公司目标、业务目标，帮助运营人员更好地实现精细化运营、提升运营效率。

电商数据应用体系建设总结（一）—— 数据应用架构剖析

滴滴集团作为生活服务领域的头部企业，正在全面测试和上线StarRocks，其中橙心优选经过一年多的数据体系建设，我们逐渐将一部分需要实时交互查询、即席查询的多维数据分析需求由ClickHouse迁移到了StarRocks中，StarRocks在稳定性、实时性方面也给了我们良好的体验，接下来以StarRocks实现的漏斗分析为例介绍StarRocks在橙心优选运营数据分析应用中的实践。

滴滴 x StarRocks：极速多维分析创造更大的业务价值

前段我们Hadoop集群磁盘使用率比较高，部分硬盘空间使用超过了70%，这部分服务器的DataNode服务读写负载就比较高，造成部分数据同步任务因为读写超时而失败。具体场景和异常跟这篇博客里描述的很像。

HDFS 客户端读写超时时间解析

某个业务线使用Redis集群保存用户session数据，数据量大约在4千万-5千万，每天发生3-4次AOF重写，每次时间持续30-40秒，AOF重写期间出现Redis主进程阻塞，应用端响应超时的问题。

Redis AOF重写阻塞问题分析

这个问题又让我们碰到了，发生次数不频繁但是一旦发生就会造成ResourceManager服务崩溃、ZK注册watch过多等问题。不彻底解决这个问题心中一直是个梗，所以基于前两次的分析和阅读社区最新版Hadoop 3.2.1代码之后，给生产环境YARN打patch最终解决这个问题。对于疑难问题，每遇到一次就有一次不同的感悟，接下来是我本次分析和解决该问题的过程记录。前两次解决和分析该问题的记录如下：

ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析（三）
                                            

Hadoop/HDFS/MapReduce/Impala被设计用于存储和处理大量文件的场景，比如TB或者PB级别数据量的文件。大量小文件对查询性能有很大的影响，因为NameNode要保存大量的HDFS文件元数据，一次性查询很多分区或者文件的话，需要获取文件列表并一个个读取文件信息，不仅会对查询性能造成很大的影响，还可能会超过操作系统的文件描述符数量限制而导致查询失败。

大压缩文件对Impala查询性能的影响

YARN调度效率不高，队列资源充足，集群中正在运行的任务数量少，资源利用率低的情况下有一部分任务排队，等待分配资源时间长。

YARN Fair Scheduler批量分配功能调优总结
                                                                      

在本系列的第三部分，我使用了一个示例来详细地介绍Impala query profile。在这一部分中，我将使用一个真实生产系统的Impala Profile文件，解释我在遇到问题时阅读Profile文件的步骤，并逐渐找到引起问题的真正原因。如果你错过了我的文章的前3个部分，你可以点击以下链接阅读一下：

一步一步理解Impala query profile（四）
                                                                      

Java反射使我们能在程序运行时动态调用某个对象的方法/构造函数、获取某个对象的属性，经常用于实现动态代理、工厂模式、Java JDBC加载连接驱动类等，近期阅读开源项目源码发现，它还有一种重要的用途——状态同步。

利用反射实现状态同步
                                                                                         

在本博客系列的第3部分，我将仍然关注查询计划（Query Plan）和执行摘要（Execution Summary），但是将使用真实数据（Kaggle’s Flights Delay database），来执行一个更复杂的查询。

一步一步理解 Impala query profile（三）
                                                                     

在上一篇文章中，我们介绍了Impala query profie的概要部分，在本篇文章我们介绍Profile的查询计划（Query Plan）和执行概要（Execution Summary）部分。

一步一步理解Impala query profile（二）
                                                                      

很多Impala用户不知道如何阅读Impala query profile来了解一个查询背后正在执行的操作，从而在此基础上对查询进行调优以充分发挥查询的性能。因此我想写一篇简单的文章来分享我的经验，并希望它可以对希望了解更多信息的人有所帮助。

一步一步理解Impala query profile（一）
                                                                      

本文编译自IBM开发者社区，主要介绍了HDFS中小的ORC和Parquet文件的问题，以及这些小文件如何影响Big SQL的读取性能，并探索了为了提高读取性能，使用现有工具将小文件压缩为大文件的可能解决方案。

（译）优化ORC和Parquet文件，提升大SQL读取性能
                                                                      

在YARN的原生任务监控界面中，我们经常能看到Aggregate Resource Allocation这个指标（图中高亮选中部分），这个指标表示该任务拥有的所有container每秒所消耗的资源（内存、CPU）总和：

YARN任务监控界面Aggregate Resource Allocation指标解析
                                                        

枚举（Enumerations）是一种语言特性，对于建模有限的实体集来说特别有用。一个经典的例子是将工作日建模为一个枚举：每个七天都有一个值。Scala和许多其他语言一样，提供了一种表示枚举的方法：

Scala 枚举的使用和探索（译）
                                                                                  

解决方式：使用App Store账号登录开发者中心：https://developer.apple.com/xcode/，然后转到https://developer.apple.com/download/more/，点击下载下图所示的安装包安装即可：

Error: Your Command Line Tools are too outdated
                                                    

最近在开发电商平台的子系统——储值卡系统，系统核心业务涉及到金额消费以及库存控制，由于redis事务并不能保证操作的原子性，因此为了解决建立在内存上高并发情况下的事务控制，使用了spring封装的RedisTemplate执行lua脚本进行原子性操作，确保金额消费，库存按顺序处理，解决资源争抢。

redis原子性读写操作之LUA脚本和watch机制
                                                                         

链表（Linked list）是一种常见的基础数据结构，是一种线性表，但是并不会按线性的顺序存储数据，而是在每一个节点里存到下一个节点的指针(Pointer)。由于不必须按顺序存储，链表在插入的时候可以达到O(1)的复杂度，比另一种线性表顺序表快得多，但是查找一个节点或者访问特定编号的节点则需要O(n)的时间，而顺序表相应的时间复杂度分别是O(logn)和O(1)。 使用链表结构可以克服数组链表需要预先知道数据大小的缺点，链表结构可以充分利用计算机内存空间，实现灵活的内存动态管理。但是链表失去了数组随机读取的优点，同时链表由于增加了结点的指针域，空间开销比较大。

链表
                                                                                                 

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了九州牧云专栏，为你提供了九州牧云的相关文章，致力于帮助开发者快速成长与发展。

九州牧云

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐