暂无搜索历史
在实际工作中,我们发现许多业务场景中都有对某一数值型指标实时统计分位数的需求,一般要求计算结果有很高准确率同时具备极低的计算延迟,实现这类需求给数据RD的开发工...
为更好的理解用户,互联网公司会将用户的行为收集上来进行分析,打点系统应运而生。但互联网公司的用户数都比较多,而且每个用户的行为也很多,这样服务器收到的打点请求就...
为提升KYLIN存储和查询性能,需要对默认配置进行修改。大部分配置参考kyligence的生产环境推荐配置即可,但是该推荐有些配置没放进去,本文将描述几个关键属...
为了查询数据,我们需要开发相应的页面,不仅要写前端,还要写查询的逻辑。现在有很多开源工具可供选择,以省去自己开发前端的工作。我们只需要将数据导入存储系统,如My...
为了给各个业务出报表,我们每天会处理几百亿条原始日志。例行任务用MR/Spark程序编写,为了保证各业务线在上班前正常看到数据,对例行任务的稳定性提出了要求。由...
storm和MapReduce框架是类似的,但在生成数据时,往往是增量更新。因为Trident的出现,开发一套实时数据程序非常方便。本人将介绍小米统计storm...
metabase默认使用H2作为存储引擎,存在单点问题。为解决这一潜在风险,可以使用mysql等数据库作为存储引擎。
开发工具 intellij 插件 Scala、Scalafmt 配置文件( ~/.scalafmt ): --style defaultWithAlign...
https://docs.oracle.com/cd/E40972_01/doc.70/e40973/cnf_jvmgc.htm#autoId0
”简单就是美”,这句谚语在软件领域也是非常适用的。比如MapReduce框架,采用分而治之的思想,最原始的数据由各个map处理,reduce将map的结果汇...
这两个转换都有shuffle过程发生,且都类似map reduce,但是reduceByKey会在map阶段会对相同的key进行聚合,极大的减少了map产生的数...
凡是cluster模式启动的作业,日志都没有打印在本地。因为main()直接在driver上运行
yarn cluster模式:spark driver和application master在同一个节点上 yarn client模式:spark driv...
很多场景中,服务端需要对用户的请求进行验证,比如QQ登录模块、统计工具的数据收集模块、品牌广告对应id的match等。针对不同的场景,可以有不同的验证方法,本文...
查看日志,发现读取Hbase时发生了OutOfMemory现象。 首先获取JVM的进程号,为16796 jstat -gcutil 16796 发现频繁的...
在做广告定向投放时,我们选出了一批用户,用设备ID来标识他们。如果我们定向出了1000万个用户。用户获取服务时,我们需要判断是否在该集合中,如果在的话,将广告一...
maven项目中,可能存在依赖的多个工程中同时依赖某个工程,而该工程被依赖的版本却不一样。比如工程demo依赖工程A,工程B。工程A和工程B依赖的thrift的...
随着报表不断的变化,我们决定采用python进行开发。使用的库主要是mako.render
MapReduce作业运行时,任务可能会失败,报out of memory错误。这个时候可以采用以下几个过程调优
需求 原始文件 Year Country medal no of medals 1896 Afghanistan Gold 5 1896...
腾讯 | 工程师 (已认证)
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市