工程师

数据人生

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

在实际工作中，我们发现许多业务场景中都有对某一数值型指标实时统计分位数的需求，一般要求计算结果有很高准确率同时具备极低的计算延迟，实现这类需求给数据RD的开发工作带来一定的挑战，其中主要的技术挑战包括以下三个方面：

一种基于实时分位数计算的系统及方法

为更好的理解用户，互联网公司会将用户的行为收集上来进行分析，打点系统应运而生。但互联网公司的用户数都比较多，而且每个用户的行为也很多，这样服务器收到的打点请求就非常多，QPS非常高，对web服务器的要求也会非常之高。为提升整个打点系统的性能，可以采用以下几个方式。

打点系统优化HTTP请求

为提升KYLIN存储和查询性能，需要对默认配置进行修改。大部分配置参考kyligence的生产环境推荐配置即可，但是该推荐有些配置没放进去，本文将描述几个关键属性需要自己手工配置的。

KYLIN生产环境配置

为了查询数据，我们需要开发相应的页面，不仅要写前端，还要写查询的逻辑。现在有很多开源工具可供选择，以省去自己开发前端的工作。我们只需要将数据导入存储系统，如MySQL、Druid、Kylin，通过这些开源工具，可以快速地进行数据分析、配置dashboard

可视化前端

为了给各个业务出报表，我们每天会处理几百亿条原始日志。例行任务用MR/Spark程序编写，为了保证各业务线在上班前正常看到数据，对例行任务的稳定性提出了要求。由于我们会依赖很多中间层数据，集群偶尔异常、数据存在倾斜等问题，这对我们的程序带来了很大的挑战。针对遇到的问题，采用“兵来将挡，水来土掩”的方案，各个击破

百亿级日志处理稳定性保证的一些技巧

storm和MapReduce框架是类似的，但在生成数据时，往往是增量更新。因为Trident的出现，开发一套实时数据程序非常方便。本人将介绍小米统计storm开发过程中使用的一些优化点。

storm开发tips

metabase默认使用H2作为存储引擎，存在单点问题。为解决这一潜在风险，可以使用mysql等数据库作为存储引擎。

metabase单点解决

开发工具

intellij
插件
Scala、Scalafmt 
 配置文件（ ~/.scalafmt ）：
--style defaultWithAlign 
--maxColumn 120
--continuationIndentCallSite 2
--continuationIndentDefnSite 2
格式化快捷键
Ctrl + Shift + L

scala代码格式化

https://docs.oracle.com/cd/E40972_01/doc.70/e40973/cnf_jvmgc.htm#autoId0

Java GC参数调优

  ”简单就是美”，这句谚语在软件领域也是非常适用的。比如MapReduce框架，采用分而治之的思想，最原始的数据由各个map处理，reduce将map的结果汇合，这么简单的框架就解决了很多大数据的问题，待Apache将其开源后，引领了大数据开源社区的发展。还有些经验丰富的程序员告诉我们“负责任的工程师在离职前会删代码”也佐证了这一点，他们利用最后一段空闲时间，梳理程序的脉络，删除冗余的逻辑，让代码更加的清晰，方便接手的人维护。 
   接手小米流量最大的一块业务后，随着公司对数据的需求越来越大，流量也在不断的增长，后端的性能也受到了极大地挑战，经常出现实时计算以及例行任务不能按时完成的情况。在对后端代码梳理和优化后，发现了大量的冗余代码，以及不需要的过程，删除这些逻辑后，让storm程序能消耗qps高达3W的数据，并且例行任务也能按时完成了。主要有以下几点：

代码中的减法

这两个转换都有shuffle过程发生，且都类似map reduce，但是reduceByKey会在map阶段会对相同的key进行聚合，极大的减少了map产生的数据量，进而减少了shuffle的数据量，提高了程序的执行效率 
 

Spark编程技巧

凡是cluster模式启动的作业，日志都没有打印在本地。因为main()直接在driver上运行

spark必须知道的几个观点

yarn cluster模式：spark driver和application master在同一个节点上 
 yarn client模式：spark driver和client在同一个节点上，支持shell 
 

spark运行方式及其常用参数

很多场景中，服务端需要对用户的请求进行验证，比如QQ登录模块、统计工具的数据收集模块、品牌广告对应id的match等。针对不同的场景，可以有不同的验证方法，本文将介绍工程中常用的几种。

实时数据系统中几种常用的验证方法

查看日志，发现读取Hbase时发生了OutOfMemory现象。  首先获取JVM的进程号，为16796  jstat -gcutil 16796  发现频繁的发生full gc，显然full gc没有将内存清理掉    

byte[]做缓存key导致JVM异常

在做广告定向投放时，我们选出了一批用户，用设备ID来标识他们。如果我们定向出了1000万个用户。用户获取服务时，我们需要判断是否在该集合中，如果在的话，将广告一起返回。如何判断呢？

bloom filter

maven项目中，可能存在依赖的多个工程中同时依赖某个工程，而该工程被依赖的版本却不一样。比如工程demo依赖工程A，工程B。工程A和工程B依赖的thrift的版本如下

maven依赖某工程确定的版本

随着报表不断的变化，我们决定采用python进行开发。使用的库主要是mako.render

python制作报表

MapReduce作业运行时，任务可能会失败，报out of memory错误。这个时候可以采用以下几个过程调优

Reduce内存不足的解决方案

需求

原始文件
Year    Country medal   no of medals
1896    Afghanistan Gold    5
1896    Afghanistan Silver  4
1896    Afghanistan Bronze  3
1896    Algeria Gold    1
1896    Algeria Silver  2
1896    Algeria Bronze  3
目标
Year    Country Gold    Silver  Bronze

pandas行转列

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了数据人生专栏，为你提供了数据人生的相关文章，致力于帮助开发者快速成长与发展。

数据人生

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐