大数据实战演练

76 篇文章
26 人订阅

全部文章

CREATE_17

基于Kerberos环境下,使用Java连接操作Hive

虽然可以使用 Hive 服务本身的 Principal 与 keytab 来连接 Hive ,但使用服务本身的 principal 不具有普遍性,所以还是建议使...

952
CREATE_17

Elasticsearch BulkProcessor 的具体实现

本文示例使用的是 Spring Boot 框架,由于该框架有默认的 Elasticsearch 版本,为了避免版本混乱或冲突,我在 pom.xml 文件内添加了...

902
CREATE_17

Sqoop1.4.7实现将Mysql数据与Hadoop3.0数据互相抽取

将 mysql 数据库中的 hive 数据库中的 ROLES 表数据导入到 HDFS 中的 /tmp/root/111 目录下。执行代码如下:

932
CREATE_17

Kafka消费者 之 指定位移消费

在 Kafka 中,每当消费者组内的消费者查找不到所记录的消费位移或发生位移越界时,就会根据消费者客户端参数 auto.offset.reset 的配置来决定从...

1783
CREATE_17

MapReduce工作原理

这篇文章是我之前在自学 MapReduce 的笔记,想着最近再回顾一下 MapReduce 的原理,于是就整理了一下。

793
CREATE_17

Windows上安装Scala并在idea上运行Hello World

最近突发奇想想学一下 Scala ,你看,Spark 和 Kafka 都是用 Scala 实现的,所以如果之后想从事大数据开发工作的话,我认为学习 Scala ...

903
CREATE_17

Kafka消费者 之 如何订阅主题或分区

https://github.com/841809077/hdpproject/blob/master/src/main/java/com/hdp/projec...

1292
CREATE_17

Kafka消费者 之 如何进行消息消费

放弃不难,但坚持很酷~由于消费者模块的知识涉及太多,所以决定先按模块来整理知识,最后再进行知识模块汇总。

1583
CREATE_17

Kafka消费者 之 如何提交消息的偏移量

由于消费者模块的知识涉及太多,所以决定先按模块来整理知识,最后再进行知识模块汇总。

1613
CREATE_17

Kafka基础(二):生产者相关知识汇总

本文章部分内容摘自 朱忠华老师的《深入理解Kafka:核心设计与实践原理》,也特别推荐广大读者购买阅读。

821
CREATE_17

Kafka基础(一):基本概念及生产者、消费者示例

Kafka 起初是由 LinkedIn 公司采用 Scala 语言开发的一个多分区、多副本且基于 Zookeeper 协调的分布式消息系统,现已被捐献给 Apa...

973
CREATE_17

HBase应用(一):数据批量导入说明

前两种方式:需要频繁的与数据所存储的 RegionServer 通信,一次性导入大量数据时,可能占用大量 Regionserver 资源,影响存储在该 Regi...

1773
CREATE_17

Python生成HBase 10w+ 条数据说明

以下为 python 生成 hbase 测试数据的全部代码,generatedata.py 文件内容如下:

1493
CREATE_17

关于调整Oozie时区为GMT+0800后,导致HUE Oozie的Bundle提交失败的问题解决方案

如果将 Oozie 时区设置为 GMT+0800 后,在 HUE 3.12.0 版本中,提交 Oozie Bundle 时,会出现:

992
CREATE_17

如何将Hive与HBase整合联用

之前学习 HBase 就有疑惑,HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进...

1672
CREATE_17

HBase原理(一):架构理解

Apache HBase 是基于 Hadoop 构建的一个分布式的、可伸缩的海量数据存储系统。常被用来存放一些海量的(通常在TB级别以上)、结构比较简单的数据,...

2243
CREATE_17

【生活现场】从洗袜子到HBase存储原理解析

小史是一个非科班的程序员,虽然学的是电子专业,但是通过自己的努力成功通过了面试,现在要开始迎接新生活了。

1223
CREATE_17

如何使用C++通过thrift访问HBase进行操作

上周六,接了一个紧急任务,说实现使用 C++ 访问 HBase 进行操作。说是用 thrift 来实现。对于 C++ 来说,我真的是门外汉,但需求如此,皱着眉头...

1644
CREATE_17

HBase二次开发之搭建HBase调试环境,如何远程debug HBase源代码

之前的文章也提到过,最近工作中需要对HBase进行二次开发(参照HBase的AES加密方法,为HBase增加SMS4数据加密类型)。研究了两天,终于将开发流程想...

1483
CREATE_17

shell实战(一):sed命令小结

sed是一种流编辑器,它是文本处理中非常中的工具,能够完美的配合正则表达式使用,功能不同凡响。sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转...

851

扫码关注云+社区

领取腾讯云代金券