首页
学习
活动
专区
工具
TVP
发布

数据人生

专栏作者
76
文章
35297
阅读量
11
订阅数
一种基于实时分位数计算的系统及方法
在实际工作中,我们发现许多业务场景中都有对某一数值型指标实时统计分位数的需求,一般要求计算结果有很高准确率同时具备极低的计算延迟,实现这类需求给数据RD的开发工作带来一定的挑战,其中主要的技术挑战包括以下三个方面:
jiewuyou
2022-09-29
7870
打点系统优化HTTP请求
为更好的理解用户,互联网公司会将用户的行为收集上来进行分析,打点系统应运而生。但互联网公司的用户数都比较多,而且每个用户的行为也很多,这样服务器收到的打点请求就非常多,QPS非常高,对web服务器的要求也会非常之高。为提升整个打点系统的性能,可以采用以下几个方式。
jiewuyou
2022-09-29
3010
KYLIN生产环境配置
为提升KYLIN存储和查询性能,需要对默认配置进行修改。大部分配置参考kyligence的生产环境推荐配置即可,但是该推荐有些配置没放进去,本文将描述几个关键属性需要自己手工配置的。
jiewuyou
2022-09-29
4810
可视化前端
为了查询数据,我们需要开发相应的页面,不仅要写前端,还要写查询的逻辑。现在有很多开源工具可供选择,以省去自己开发前端的工作。我们只需要将数据导入存储系统,如MySQL、Druid、Kylin,通过这些开源工具,可以快速地进行数据分析、配置dashboard
jiewuyou
2022-09-29
4790
百亿级日志处理稳定性保证的一些技巧
为了给各个业务出报表,我们每天会处理几百亿条原始日志。例行任务用MR/Spark程序编写,为了保证各业务线在上班前正常看到数据,对例行任务的稳定性提出了要求。由于我们会依赖很多中间层数据,集群偶尔异常、数据存在倾斜等问题,这对我们的程序带来了很大的挑战。针对遇到的问题,采用“兵来将挡,水来土掩”的方案,各个击破
jiewuyou
2022-09-29
2370
storm开发tips
storm和MapReduce框架是类似的,但在生成数据时,往往是增量更新。因为Trident的出现,开发一套实时数据程序非常方便。本人将介绍小米统计storm开发过程中使用的一些优化点。
jiewuyou
2022-09-29
1330
metabase单点解决
metabase默认使用H2作为存储引擎,存在单点问题。为解决这一潜在风险,可以使用mysql等数据库作为存储引擎。
jiewuyou
2022-09-29
3810
scala代码格式化
开发工具 intellij 插件 Scala、Scalafmt 配置文件( ~/.scalafmt ): --style defaultWithAlign --maxColumn 120 --continuationIndentCallSite 2 --continuationIndentDefnSite 2 格式化快捷键 Ctrl + Shift + L
jiewuyou
2022-09-29
7730
Java GC参数调优
https://docs.oracle.com/cd/E40972_01/doc.70/e40973/cnf_jvmgc.htm#autoId0
jiewuyou
2022-09-29
4310
代码中的减法
  ”简单就是美”,这句谚语在软件领域也是非常适用的。比如MapReduce框架,采用分而治之的思想,最原始的数据由各个map处理,reduce将map的结果汇合,这么简单的框架就解决了很多大数据的问题,待Apache将其开源后,引领了大数据开源社区的发展。还有些经验丰富的程序员告诉我们“负责任的工程师在离职前会删代码”也佐证了这一点,他们利用最后一段空闲时间,梳理程序的脉络,删除冗余的逻辑,让代码更加的清晰,方便接手的人维护。   接手小米流量最大的一块业务后,随着公司对数据的需求越来越大,流量也在不断的增长,后端的性能也受到了极大地挑战,经常出现实时计算以及例行任务不能按时完成的情况。在对后端代码梳理和优化后,发现了大量的冗余代码,以及不需要的过程,删除这些逻辑后,让storm程序能消耗qps高达3W的数据,并且例行任务也能按时完成了。主要有以下几点:
jiewuyou
2022-09-29
8430
Spark编程技巧
这两个转换都有shuffle过程发生,且都类似map reduce,但是reduceByKey会在map阶段会对相同的key进行聚合,极大的减少了map产生的数据量,进而减少了shuffle的数据量,提高了程序的执行效率
jiewuyou
2022-09-29
2310
spark必须知道的几个观点
凡是cluster模式启动的作业,日志都没有打印在本地。因为main()直接在driver上运行
jiewuyou
2022-09-29
1670
spark运行方式及其常用参数
yarn cluster模式:spark driver和application master在同一个节点上 yarn client模式:spark driver和client在同一个节点上,支持shell
jiewuyou
2022-09-29
5260
实时数据系统中几种常用的验证方法
很多场景中,服务端需要对用户的请求进行验证,比如QQ登录模块、统计工具的数据收集模块、品牌广告对应id的match等。针对不同的场景,可以有不同的验证方法,本文将介绍工程中常用的几种。
jiewuyou
2022-09-29
4800
byte[]做缓存key导致JVM异常
查看日志,发现读取Hbase时发生了OutOfMemory现象。 首先获取JVM的进程号,为16796 jstat -gcutil 16796 发现频繁的发生full gc,显然full gc没有将内存清理掉
jiewuyou
2022-09-29
5280
bloom filter
在做广告定向投放时,我们选出了一批用户,用设备ID来标识他们。如果我们定向出了1000万个用户。用户获取服务时,我们需要判断是否在该集合中,如果在的话,将广告一起返回。如何判断呢?
jiewuyou
2022-09-29
4310
maven依赖某工程确定的版本
maven项目中,可能存在依赖的多个工程中同时依赖某个工程,而该工程被依赖的版本却不一样。比如工程demo依赖工程A,工程B。工程A和工程B依赖的thrift的版本如下
jiewuyou
2022-09-29
4640
python制作报表
随着报表不断的变化,我们决定采用python进行开发。使用的库主要是mako.render
jiewuyou
2022-09-29
1.5K0
Reduce内存不足的解决方案
MapReduce作业运行时,任务可能会失败,报out of memory错误。这个时候可以采用以下几个过程调优
jiewuyou
2022-09-29
1.3K0
pandas行转列
需求 原始文件 Year Country medal no of medals 1896 Afghanistan Gold 5 1896 Afghanistan Silver 4 1896 Afghanistan Bronze 3 1896 Algeria Gold 1 1896 Algeria Silver 2 1896 Algeria Bronze 3 目标 Year Country Gold Silver Bronze
jiewuyou
2022-09-29
5740
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档