用户1217611

LV0
发表了文章

ES 复合查询

  ES在查询过程中比较多遇到符合查询,既需要多个字段过滤也需要特殊情况处理,本文简单介绍几种查询组合方便快捷查询ES。

用户1217611
发表了文章

linux 安装python3

我个人习惯将Python安装在 /usr/lib 目录下,我们首先将Python压缩包移动至指定文件夹,我们需要使用mv命令来移动

用户1217611
发表了文章

phoenix 索引实践

开启索引支持 HBase --> 配置 --> 高级 --> 搜索 hbase-site.xml。 在服务端添加下面配置:

用户1217611
发表了文章

spark shuffle参数调优

用户1217611
发表了文章

hbase 面试问题汇总

(2)、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态增加,同一个表中的不同行的可以有截然不同的列。

用户1217611
发表了文章

hbase数据原理及基本架构

hbase是apache hadoop生态系统中的重要一员,主要用于海量结构化数据存储

用户1217611
发表了文章

hive sql 窗口函数

1) 窗口函数 Lag, Lead, First_value,Last_value Lag, Lead、这两个函数为常用的窗口函数,可以返回上下数据行的数据....

用户1217611
发表了文章

数据仓库建模

如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望...

用户1217611
发表了文章

Spark DataFrame简介(二)

Spark的TimestampType类型与Java的java.sql.Timestamp对应,

用户1217611
发表了文章

Spark DataFrame简介(一)

本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会...

用户1217611
发表了文章

sparksql 概述

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。

用户1217611
发表了文章

Data Vault 简介

Data Vault 2.0 不仅是建模技术,也提供了一整套数据仓库项目的方法论。它能提供一套非常可行的方案来满足数据仓库项目中对于历史轨迹和审核两个方面的需求...

用户1217611
发表了文章

Kimball与Inmon对比

数据仓库理论的创始人W.H.Inmon在其《Building the Data Warehouse》一书中,给出了数据仓库的四个基本特征:面向主题,数据是集成的...

用户1217611
发表了文章

yarn-site.xml 配置介绍

yarn-site.xml 配置介绍 yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximu...

用户1217611
发表了文章

Hive简介

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

用户1217611
发表了文章

Flink入门介绍

Apache Flink是一个分布式大数据处理引擎,可以对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。

用户1217611
发表了文章

yarn一些最佳配置

合理设置队列名 mapreduce.job.queuename 设置队列名 map读取时进行小文件整合

用户1217611
发表了文章

Hadoop FairScheduler

本文档描述FairScheduler,一个允许YARN应用程序公平共享集群资源的调度插件。

用户1217611
订阅了专栏

腾讯云自媒体分享计划

3 文章3.1K 关注者
关注了用户

腾讯云自媒体分享计划

腾讯 · 产品运营 (已认证)

申请条件:至少有 20 篇或以上符合投稿要求可迁入腾讯云专栏的原创技术文章。

3 文章0 回答3.1K 关注者

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券