学习
实践
活动
工具
TVP
写文章

jiewuyou

LV1
举报
发表了文章

一种基于实时分位数计算的系统及方法

在实际工作中,我们发现许多业务场景中都有对某一数值型指标实时统计分位数的需求,一般要求计算结果有很高准确率同时具备极低的计算延迟,实现这类需求给数据RD的开发工...

jiewuyou
云计算文件存储数据结构
发表了文章

打点系统优化HTTP请求

为更好的理解用户,互联网公司会将用户的行为收集上来进行分析,打点系统应运而生。但互联网公司的用户数都比较多,而且每个用户的行为也很多,这样服务器收到的打点请求就...

jiewuyou
网站Nginx
发表了文章

KYLIN生产环境配置

为提升KYLIN存储和查询性能,需要对默认配置进行修改。大部分配置参考kyligence的生产环境推荐配置即可,但是该推荐有些配置没放进去,本文将描述几个关键属...

jiewuyou
发表了文章

可视化前端

为了查询数据,我们需要开发相应的页面,不仅要写前端,还要写查询的逻辑。现在有很多开源工具可供选择,以省去自己开发前端的工作。我们只需要将数据导入存储系统,如My...

jiewuyou
SQL开源HTML
发表了文章

百亿级日志处理稳定性保证的一些技巧

为了给各个业务出报表,我们每天会处理几百亿条原始日志。例行任务用MR/Spark程序编写,为了保证各业务线在上班前正常看到数据,对例行任务的稳定性提出了要求。由...

jiewuyou
spark
发表了文章

storm开发tips

storm和MapReduce框架是类似的,但在生成数据时,往往是增量更新。因为Trident的出现,开发一套实时数据程序非常方便。本人将介绍小米统计storm...

jiewuyou
编程算法
发表了文章

metabase单点解决

metabase默认使用H2作为存储引擎,存在单点问题。为解决这一潜在风险,可以使用mysql等数据库作为存储引擎。

jiewuyou
HTML
发表了文章

scala代码格式化

jiewuyou
Scala
发表了文章

Java GC参数调优

https://docs.oracle.com/cd/E40972_01/doc.70/e40973/cnf_jvmgc.htm#autoId0

jiewuyou
发表了文章

代码中的减法

  ”简单就是美”,这句谚语在软件领域也是非常适用的。比如MapReduce框架,采用分而治之的思想,最原始的数据由各个map处理,reduce将map的结果汇...

jiewuyou
开源MapReducespark大数据
发表了文章

Spark编程技巧

这两个转换都有shuffle过程发生,且都类似map reduce,但是reduceByKey会在map阶段会对相同的key进行聚合,极大的减少了map产生的数...

jiewuyou
文件存储spark缓存YarnNode.js
发表了文章

spark必须知道的几个观点

凡是cluster模式启动的作业,日志都没有打印在本地。因为main()直接在driver上运行

jiewuyou
Linuxspark
发表了文章

spark运行方式及其常用参数

yarn cluster模式:spark driver和application master在同一个节点上 yarn client模式:spark driv...

jiewuyou
YarnNode.jssparkJavaLinux
发表了文章

实时数据系统中几种常用的验证方法

很多场景中,服务端需要对用户的请求进行验证,比如QQ登录模块、统计工具的数据收集模块、品牌广告对应id的match等。针对不同的场景,可以有不同的验证方法,本文...

jiewuyou
缓存数据库SQL压力测试数据结构
发表了文章

byte[]做缓存key导致JVM异常

查看日志,发现读取Hbase时发生了OutOfMemory现象。 首先获取JVM的进程号,为16796 jstat -gcutil 16796 发现频繁的...

jiewuyou
缓存HBaseTDSQL MySQL 版JVM
发表了文章

bloom filter

在做广告定向投放时,我们选出了一批用户,用设备ID来标识他们。如果我们定向出了1000万个用户。用户获取服务时,我们需要判断是否在该集合中,如果在的话,将广告一...

jiewuyou
编程算法HTTP
发表了文章

maven依赖某工程确定的版本

maven项目中,可能存在依赖的多个工程中同时依赖某个工程,而该工程被依赖的版本却不一样。比如工程demo依赖工程A,工程B。工程A和工程B依赖的thrift的...

jiewuyou
MavenXML
发表了文章

python制作报表

随着报表不断的变化,我们决定采用python进行开发。使用的库主要是mako.render

jiewuyou
HTMLJavaPython
发表了文章

Reduce内存不足的解决方案

MapReduce作业运行时,任务可能会失败,报out of memory错误。这个时候可以采用以下几个过程调优

jiewuyou
MapReduce
发表了文章

pandas行转列

jiewuyou
HTTP

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券