首页
学习
活动
专区
工具
TVP
发布

大数据和云计算技术

专栏作者
298
文章
436656
阅读量
101
订阅数
大数据与云计算技术周报(第150期)
影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。
大数据和云计算技术
2020-07-10
7410
hive拉链工具实战
这个丁延明同学写的一个实战工具,坚持用代码解决问题,推荐! 有相关业务的同学可以一起讨论,下面是正文。 ---- 1、背景 大家好 最近由于公司业务需要写了一篇hive拉链工具,下边对工具进行简单的介绍。 工具名为zipperu(意思是拉链工具),由bin,conf,historys,logs,tmp组成。 2、实现原理 具体实现原理是根据业务表(你每天更新的表),你所关注的字段(比如phonenumber发生了变化你就认为这条数据发生了变化,然后更改其历史状态)进行MD5加密,比较该字段的MD5值是否发
大数据和云计算技术
2018-03-08
8380
元数据的作用
刘耀铭同学元数据系列作品的第二篇,大家支持! 其他相关文章: 元数据概念 基于元数据驱动的ETL Hive 元数据表结构详解 上一遍我们了解了什么是元数据,即元数据的定义,我们知道了元数据是对数据的描述以及解释,它用来说明数据内容质量状况和其他特征的背景信息。那么元数据具体有什么作用呢? 1、元数据是进行数据集成所必须的。 怎么理解?我们知道一个数据仓库是由外部数据、业务数据以及文档资料通过某些抽取工具而得到的,数据集市就是数据仓库经过元数据的定义,约定它的结构等信息所产生。元数据做到了对数据仓库有效的数据
大数据和云计算技术
2018-03-08
2.2K0
hadoop运行环境搭建
森哥/洋哥hadoop系列,非常适合初学者: Hive 元数据表结构详解 HDFS学习:HDFS机架感知与副本放置策略 Yarn【label-based scheduling】实战总结(二) Yarn
大数据和云计算技术
2018-03-08
1.7K0
过早优化是万恶之源
Don’t Cut Yourself: Code Optimization as a Double-Edged Sword。中文翻译:过早优化是万恶之源。 代码优化的好处多多,但是这并不意味着所有的代码都需要进行优化,有时过度的优化反而适得其反——费时、费力、不讨好。 “现代计算机科学的鼻祖”Donald Knuth曾说过“过早的优化是万恶之源”,因为:让正确的程序更快,要比让快速的程序正确容易得多。文中讲了7个原则,简单罗列如下: 1. 究竟要优化什么? 2. 选择一个正确的优
大数据和云计算技术
2018-03-08
1.1K2
管中窥豹:腾讯大数据平台
‍‍‍‍腾讯有中国最全的社交数据,面对一个数据金矿,腾讯不可能坐视不理,腾讯基于hadoop研究了自己的大数据平台,最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。 ‍‍
大数据和云计算技术
2018-03-08
3K1
实时分析系统(Hive/Hbase/Impala)浅析
1. 什么是实时分析(在线查询)系统? 大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点: a. 时延低(秒级别)。 b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。 c. 查询范围大(通常查询表记录在几十亿级别)。 d. 返回结果数小(几十条甚至几千条)。 e. 并发数要求高(几百上千同时并发)。 f. 支持SQL(这个业界基本上达成共识了,原因是很难找到一个又会数据分析,还能写JAVA代码的分析
大数据和云计算技术
2018-03-07
3.6K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档