文渊之博

138 篇文章
38 人订阅

全部文章

用户1217611

ES 最佳实践配置

Elasticsearch 是当前流行的企业级搜索引擎,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。作为一个开箱即用的产品,在生产环境上...

5310
用户1217611

ES 复合查询

ES在查询过程中比较多遇到符合查询,既需要多个字段过滤也需要特殊情况处理,本文简单介绍几种查询组合方便快捷查询ES。

8340
用户1217611

linux 安装python3

我个人习惯将Python安装在 /usr/lib 目录下,我们首先将Python压缩包移动至指定文件夹,我们需要使用mv命令来移动

8020
用户1217611

phoenix 索引实践

开启索引支持 HBase --> 配置 --> 高级 --> 搜索 hbase-site.xml。 在服务端添加下面配置:

9530
用户1217611

spark shuffle参数调优

6820
用户1217611

hbase 面试问题汇总

(2)、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态增加,同一个表中的不同行的可以有截然不同的列。

9630
用户1217611

hbase数据原理及基本架构

hbase是apache hadoop生态系统中的重要一员,主要用于海量结构化数据存储

7510
用户1217611

hive sql 窗口函数

1) 窗口函数 Lag, Lead, First_value,Last_value Lag, Lead、这两个函数为常用的窗口函数,可以返回上下数据行的数据....

5110
用户1217611

数据仓库建模

如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望...

16030
用户1217611

Spark DataFrame简介(二)

Spark的TimestampType类型与Java的java.sql.Timestamp对应,

7830
用户1217611

Spark DataFrame简介(一)

本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会...

6720
用户1217611

sparksql 概述

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。

9530
用户1217611

Data Vault 简介

Data Vault 2.0 不仅是建模技术,也提供了一整套数据仓库项目的方法论。它能提供一套非常可行的方案来满足数据仓库项目中对于历史轨迹和审核两个方面的需求...

10320
用户1217611

Kimball与Inmon对比

数据仓库理论的创始人W.H.Inmon在其《Building the Data Warehouse》一书中,给出了数据仓库的四个基本特征:面向主题,数据是集成的...

9220
用户1217611

yarn-site.xml 配置介绍

yarn-site.xml 配置介绍 yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximu...

4810
用户1217611

Hive简介

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

7530
用户1217611

Flink入门介绍

Apache Flink是一个分布式大数据处理引擎,可以对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。

7010
用户1217611

yarn一些最佳配置

合理设置队列名 mapreduce.job.queuename 设置队列名 map读取时进行小文件整合

9440
用户1217611

Hadoop FairScheduler

本文档描述FairScheduler,一个允许YARN应用程序公平共享集群资源的调度插件。

6410
用户1217611

简单介绍python的双向队列

大家都知道利用 .append 和 .pop 方法,我们可以把列表当作栈或者队列来用(比如,把 append 和 pop(0) 合起来用,就能模拟栈的“先进...

16130

扫码关注云+社区

领取腾讯云代金券