腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据和云计算技术

专栏作者

298

文章

436656

阅读量

101

订阅数

大数据与云计算技术周报（第150期)

网络安全 https hive es mongodb

影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化，也包含Hive配置项和MR方面的调整。

大数据和云计算技术

2020-07-10

7410

hive拉链工具实战

这个丁延明同学写的一个实战工具，坚持用代码解决问题，推荐！有相关业务的同学可以一起讨论，下面是正文。 ---- 1、背景大家好最近由于公司业务需要写了一篇hive拉链工具，下边对工具进行简单的介绍。工具名为zipperu（意思是拉链工具），由bin，conf，historys，logs，tmp组成。 2、实现原理具体实现原理是根据业务表（你每天更新的表），你所关注的字段（比如phonenumber发生了变化你就认为这条数据发生了变化，然后更改其历史状态）进行MD5加密，比较该字段的MD5值是否发

大数据和云计算技术

2018-03-08

8380

元数据的作用

hive 存储数据库

刘耀铭同学元数据系列作品的第二篇，大家支持！其他相关文章：元数据概念基于元数据驱动的ETL Hive 元数据表结构详解上一遍我们了解了什么是元数据，即元数据的定义，我们知道了元数据是对数据的描述以及解释，它用来说明数据内容质量状况和其他特征的背景信息。那么元数据具体有什么作用呢？ 1、元数据是进行数据集成所必须的。怎么理解？我们知道一个数据仓库是由外部数据、业务数据以及文档资料通过某些抽取工具而得到的，数据集市就是数据仓库经过元数据的定义，约定它的结构等信息所产生。元数据做到了对数据仓库有效的数据

大数据和云计算技术

2018-03-08

2.2K0

hadoop运行环境搭建

hadoop hive yarn 分布式 linux

森哥/洋哥hadoop系列，非常适合初学者： Hive 元数据表结构详解 HDFS学习：HDFS机架感知与副本放置策略 Yarn【label-based scheduling】实战总结（二） Yarn

大数据和云计算技术

2018-03-08

1.7K0

过早优化是万恶之源

Don’t Cut Yourself: Code Optimization as a Double-Edged Sword。中文翻译：过早优化是万恶之源。代码优化的好处多多，但是这并不意味着所有的代码都需要进行优化，有时过度的优化反而适得其反——费时、费力、不讨好。 “现代计算机科学的鼻祖”Donald Knuth曾说过“过早的优化是万恶之源”，因为：让正确的程序更快，要比让快速的程序正确容易得多。文中讲了7个原则，简单罗列如下： 1. 究竟要优化什么？ 2. 选择一个正确的优

大数据和云计算技术

2018-03-08

1.1K2

管中窥豹：腾讯大数据平台

开源 hive spark hbase kafka

‍‍‍‍腾讯有中国最全的社交数据，面对一个数据金矿，腾讯不可能坐视不理，腾讯基于hadoop研究了自己的大数据平台，最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。 ‍‍

大数据和云计算技术

2018-03-08

3K1

实时分析系统（Hive/Hbase/Impala）浅析

hive hbase 数据分析

1. 什么是实时分析（在线查询）系统？大数据领域里面，实时分析（在线查询）系统是最常见的一种场景，通常用于客户投诉处理，实时数据分析，在线查询等等过。因为是查询应用，通常有以下特点： a. 时延低（秒级别）。 b. 查询条件复杂（多个维度，维度不固定），有简单（带有ID)。 c. 查询范围大（通常查询表记录在几十亿级别）。 d. 返回结果数小（几十条甚至几千条）。 e. 并发数要求高（几百上千同时并发）。 f. 支持SQL（这个业界基本上达成共识了，原因是很难找到一个又会数据分析，还能写JAVA代码的分析

大数据和云计算技术

2018-03-07

3.6K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态