木野归郎

LV0
发表了文章

Spark 在大数据中的地位 - 中级教程

Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。

木野归郎
发表了文章

动态图解释 RNN、LSTM和GRU

循环神经网络(Recurrent Neural Network, RNN),RNN常用来处理序列式问题,以序列数据为输入来进行建模的深度学习模型,RNN是NLP...

木野归郎
发表了文章

面试被问到Flink的checkpoint问题,给问懵逼了....

Checkpoint 机制

木野归郎
发表了文章

细谈Hadoop生态圈

Hadoop在过去的几年里已经变得很成熟了。下面的图1-2显示了Hadoop生态系统堆栈。Apache Phoenix是HBase的SQL包装,它需要基本的HB...

木野归郎
发表了文章

大数据平台 CDH 6.2 搭建

https://archive.cloudera.com/cm6/6.2.0/redhat7/yum/RPMS/x86_64/

木野归郎
发表了文章

Flink SQL 实时计算UV指标

用一个接地气的案例来介绍如何实时计算 UV 数据。大家都知道,在 ToC 的互联网公司,UV 是一个很重要的指标,对于老板、商务、运营的及时决策会产生很大的影响...

木野归郎
发表了文章

Hive中使用 with as 优化SQL

当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级多个地方存在重复使用的情况,这个时候我们可以使用 with as 语句将其独立出来,极大提高S...

木野归郎
发表了文章

Elasticsearch 加班不睡觉(一)

在实际MySQL业务中,一般会先验证sql有没有问题,如果没有问题,再写业务代码。实际ES业务中,也一样,先DSL确认没有问题,再写业务代码。

木野归郎
发表了文章

项目实战中Hive注释乱码解决方案

下面这些都是我在工作中总结出来的,希望对大家有帮助,如果有其他的问题或者解决方法可以留言给我。

木野归郎
发表了文章

Flink Windows窗口简介和使用

很多人不知道什么是Window?有哪些用途? 下面我们结合一个现实的例子来说明。

木野归郎
发表了文章

Zookeeper 介绍与内部原理

Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。

木野归郎
发表了文章

算法推荐 — 协同过滤

求解评分矩阵的一种典型方法是:ALS,在spark-mllib库中有实现好的api;

木野归郎
发表了文章

聚类算法简析(一):朴素贝叶斯算法

朴素贝叶斯算法常用于分类与预测的问题,比如给一个1000本书进行分类,可以分为文学类,管理类,技术类,教育类等等,即算法得到的结果是一组离散的代表类别的数据。比...

木野归郎
发表了文章

Spark程序开发调优(后续)

如果因为业务需要,一定要使用 shuffle 操作,无法用 map 类的算子来替代,那么尽量使用可以 map-side 预聚合的算子。

木野归郎
发表了文章

Spark程序开发调优(前奏)

Spark 性能优化的第一步,就是要在开发 Spark 作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些 Spark 基本开发原...

木野归郎
发表了文章

拿美团offer,Hive进阶篇

https://blog.csdn.net/weixin_38754799/article/details/104306898

木野归郎
发表了文章

拿美团offer,HIve基础篇(补)

GROUP BY 语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。

木野归郎
发表了文章

拿美团offer,Hive基础篇(持续更新中)

Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL查询功能。

木野归郎
发表了文章

Redis:面试几十多家公司,这些必须掌握

面试时有关Redis有关的问题经常被问住,然后在网上找了大量相关的资料,整理出来,和大家一起学习。

木野归郎
发表了文章

CT:通过炒菜大白话讲解数据仓库建设

首先它不是一个平台,也不是一个系统,如果有厂商说他们有个数据中台卖给你,对不起,它是个骗子。

木野归郎

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券