如果外部字段中存在本地字段，则聚合_如果相关字段不存在，则创建该字段_如果字段存在于临时表中，则删除该字段 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深入解析Elasticsearch中脚本原理

Elasticsearch作为一个分布式搜索和分析引擎，以其强大的全文搜索、结构化搜索和分析能力而广受欢迎。在Elasticsearch中，脚本是一种强大的工具，允许用户在查询和索引操作中执行动态计算和数据处理。从Elasticsearch 7.6版本开始，脚本功能得到了进一步的优化和提升，为用户提供了更加灵活和高效的数据处理方式。

01

Hive 高频面试题 30 题

来源：大数据技术与架构本文约6000字，建议阅读10分钟本文收集了Hive面试中的高频考题。如果你是数据开发、数据研发、或数据分析师，那么这篇文章将对你非常有用。记得转发收藏哦。一、Hive面试题 1、hive内部表和外部表的区别未被external修饰的是内部表，被external修饰的为外部表。区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），

03

您找到你想要的搜索结果了吗？

是的

没有找到

DDD Command模型

经常会有A.getb().getc().d()的方法调用，有没有什么方法将调用链变短比呢，联想到操作系统是通过消息触发一系列操作，我们也可以模仿这一操作，用事件的方式调用方法，当然也有弊端会让事件到处跑，不知道有哪些方法被调用了，我在写代码的时候就喜欢事件的方式（不过聚合根还是设计的简单一些，不要嵌套太深，从根源上避免这种太深的设计）

03

Flink学习笔记(9)-Table API 和 Flink SQL

• Table API 是一套内嵌在 Java 和 Scala 语言中的查询API，它允许以非常直观的方式组合来自一些关系运算符的查询

01

Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面（三）SQL篇

哈喽各位，本章主要写的是FlinkSQL也是Flink章节的倒数第二篇了，最后还有一篇FlinkCEP，稍后会出，耐心关注哦！好了，进入正题！！！！

03

SQL命令 SELECT（二）

这是所有SELECT语句的必选元素。通常，选择项指的是FROM子句中指定的表中的一个字段。选择项由下列一个或多个项组成，多个项之间用逗号分隔:

01

Elasticsearch聚合之 Terms

之前总结过metric聚合的内容，本篇来说一下bucket聚合的知识。Bucket可以理解为一个桶，他会遍历文档中的内容，凡是符合要求的就放入按照要求创建的桶中。本篇着重讲解的terms聚合，它是按照某个字段中的值来分类：比如性别有男、女，就会创建两个桶，分别存放男女的信息。默认会搜集doc_count的信息，即记录有多少男生，有多少女生，然后返回给客户端，这样就完成了一个terms得统计。 Terms聚合 { "aggs" : { "genders" : {

06

SQL命令 UNION

UNION将两个或多个查询组合为一个查询，该查询将数据检索到结果中。由UNION组合的查询可以是由单个SELECT语句组成的简单查询，也可以是复合查询。

02

【mysql】聚合函数

Innodb引擎的表用count(*),count(1)直接读行数，复杂度是O(n)，因为innodb真的要去数一遍。但好于具体的count(列名)。

01

E往无前 | 让你的ES查询性能起飞！腾讯云大数据ES查询优化攻略“一网打尽”

《E往无前》系列将着重展现腾讯云ES在持续深入优化客户所关心的「省！快！稳！」诉求，能够在低成本的同时兼顾高可用、高性能、高稳定等特性，可以满足微盟、小红书、微信支付等内外部大客户的核心场景需求。 E往无前 | 让你的ES查询性能起飞！腾讯云大数据ES查询优化攻略“一网打尽” 背景 Elasticsearch是一个基于Lucene库的开源搜索引擎，简称ES。腾讯联合 Elastic 公司在腾讯云上提供了内核增强版 ES 云服务，目前在腾讯内外部广泛应用于日志实时分析、结构化数据分析、全文检索等场景。海量规模

02

MongoDB的引用式数据模型

MongoDB的引用式数据模型是一种将数据拆分为多个文档的方法，用于管理大量数据或需要频繁更新的数据。引用式数据模型使用一个文档来引用另一个文档，而不是将所有数据存储在单个文档中。

03

关系数据库设计之（双外键）

本文的设计方法主要应用于大型综合数据分析系统，由于其接入数据源种类较多且数据不稳定。所谓不稳定是指数据进入数据仓库后，外部数会发生变化，关键是这些变化会影响整体的数据分析。一般的数据仓库中采集的各种数据聚合策略，聚合后的数据能够提升整体的分析效率，但聚合后的数据更新的成本极高，会产生链条式的反应，影响一波又一波的数据。双外键的设计主要是应对这类不稳定的数据源，针对数据来源多样化、数据源无法受到自身约束的数据分析系统。

06

Flink去重第二弹：SQL方式

在Flink去重第一弹:MapState去重中介绍了使用编码方式完成去重，但是这种方式开发周期比较长，我们可能需要针对不同的业务逻辑实现不同的编码，对于业务开发来说也需要熟悉Flink编码，也会增加相应的成本，我们更多希望能够以sql的方式提供给业务开发完成自己的去重逻辑。本篇介绍如何使用sql方式完成去重。为了与离线分析保持一致的分析语义，Flink SQL 中提供了distinct去重方式，使用方式：

02

DQL语句排序与分组

排序是计算机内经常进行的一种操作，其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序，若整个排序过程不需要访问外存便能完成，则称此类排序问题为内部排序。反之，若参加排序的记录数量很大，整个序列的排序过程不可能在内存中完成，则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。

01

最新Hive的高频面试题新鲜出炉了！

如果其中有一张表为小表，直接使用map端join的方式（map端加载小表）进行聚合。

02

Hive_

HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree（操作树）->优化后的操作树->mapreduce任务树->优化后的mapreduce任务树

02

有赞BI平台实现原理

有赞是一家SaaS公司，更是一家大数据公司。如何从海量数据中高效地挖掘数据的价值，并对数据进行可视化分析与展示，是我们亟待解决的问题。鉴于此有赞BI平台应运而生，BI平台经过多次迭代，使用户可以快速方便地在BI平台进行数据的分析与展示，满足了不同业务的取数需求，目前月均 UV 700+，PV 3W5+，报表总数 5K+。

01

中小规模搜索引擎（ElasticSearch）典型应用场景及性能优化（二）

首先通过搜索词匹配倒排表得到一个只有id的结果集，然后通过id匹配正排索引拿到对应的文档字段，最后返回结果，这样的好处是：

02

从MVC到DDD的架构演进

DDD这几年越来越火，资料也很多，大部分的资料都偏向于理论介绍，有给出的代码与传统MVC的三层架构差异较大，再加上大量的新概念很容易让初学者望而却步。本文从MVC架构角度来讲解如何演进到DDD架构。

03

编写高质量可维护的代码：数据建模

本文首发于政采云前端团队博客：编写高质量可维护的代码：数据建模 https://www.zoo.team/article/data-modeling

04

【腾讯云ES】让你的ES查询性能起飞：Elasticsearch 搜索场景优化攻略“一网打尽”

Elasticsearch是一个基于Lucene库的开源搜索引擎，简称ES。腾讯联合 Elastic 公司在腾讯云上提供了内核增强版 ES 云服务，目前在腾讯内外部广泛应用于日志实时分析、结构化数据分析、全文检索等场景。海量规模、丰富的应用场景不断推动着腾讯云ES团队对原生ES进行持续的高可用、高性能、低成本等全方位的优化。本文旨在介绍腾讯云ES 在优化查询性能之路上的探索历程，是对大量内外部客户不断优化实践的一个阶段性总结。本文会先从ES基本原理入手，在此基础上，从内核角度引导大家如何才能充分“压榨” ES 的查询性能。

学好Elasticsearch系列-聚合查询

Elasticsearch中的聚合是一种以结构化的方式提取和展示数据的机制。可以把它视为SQL中的GROUP BY语句，但是它更加强大和灵活。

02

一起学Elasticsearch系列-聚合查询

聚合查询是 Elasticsearch 中一种强大的数据分析工具，用于从索引中提取和计算有关数据的统计信息。聚合查询可以执行各种聚合操作，如计数、求和、平均值、最小值、最大值、分组等，以便进行数据汇总和分析。

02

Hive经典简答题

什么是Hive? Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL）。 2.HIve的意义(最初研发的原因) 减少开发人员

01

领域驱动设计——术语篇

随着微服务架构的普及，领域驱动设计（DDD）又重回软件设计战场。虽然团队内不少项目已经开始尝试，使用DDD指导项目的设计与开发，但还是有不少同学对DDD缺乏基础了解。因此，本文结合书本的定义及个人理解，对DDD中关键概念进行梳理，避免沟通时的歧义。毕竟DDD提倡使用通用语言，业务层面应该使用通用语言，技术层面也应该统一术语。

01

hive面试必备题

Hive存储的是逻辑上的数据仓库信息，包括表的定义、数据的存储位置（HDFS路径）、分区和表的元数据等。实际的数据文件存储在HDFS上，Hive通过HQL（Hive Query Language）实现对这些数据的SQL-like查询，本质上是将SQL查询转换为MapReduce任务在Hadoop上执行。

01

sparksql源码系列 | 生成resolved logical plan的解析规则整理

之前有分享过一篇笔记：Spark sql规则执行器RuleExecutor(源码解析) 里面有提到Analyzer、Optimizer定义了一系列 rule。 📷 其中Analyzer定义了从【未解析的逻辑执行计划】生成【解析后的逻辑执行计划】的一系列规则，这篇笔记整理了一下这些规则都哪些。基于spark3.2 branch rule【规则】 batch【表示一组同类的规则】 strategy【迭代策略】注释 OptimizeUpdateFields Substitution fixedPoint 此

04

步步深入MySQL：架构->查询执行流程->SQL解析顺序！

一直是想知道一条SQL语句是怎么被执行的，它执行的顺序是怎样的，然后查看总结各方资料，就有了下面这一篇博文了。

02

Spring认证中国教育管理中心-Spring Data MongoDB教程七

原标题：Spring认证中国教育管理中心-Spring Data MongoDB教程七(内容来源：Spring中国教育管理中心）

03

API设计的几条原则

API 设计是微服务设计中非常重要的环节，代表服务之间交互的方式，会影响服务之间的集成。通常来说，一个好的 API 设计需要满足两个主要的目的。

02

【最全的大数据面试系列】Hive面试题大全

1.倾斜原因：map 输出数据按 key Hash 的分配到 reduce 中，由于 key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的数据量差异过大。

02

一文带你落地DDD

hello，everyone，好久不见。最近几周部门有个大版本发布，一直没有抽出时间来写博。由于版本不断迭代，功能越做越复杂，系统的维护与功能迭代越来越困难。前段领导找我说，能不能在架构上动手做做文章，将架构迁移到DDD。哈哈哈哈，当时我听到这个话的时候瞬间来了精神。说实话，从去年开始从大厂的一些朋友那里接触到DDD，自己平时也会时不时的阅读相关的文章与开源项目，但是一直没有机会在实际的工作中实施。正好借着这次机会可以开始实践一下。

02

为什么微服务架构需要聚合

学习架构不仅仅是为了成为一名合格的架构师，同时也可以在设计、开发、部署一个系统、甚至一个模块时能够更合理地考虑到其内部的权衡取舍，以及与周边系统的耦合和隔离问题。当然在自己能力不足的情况下，"抄"，绝对是个捷径。伟大的明代著名科学家徐光启就曾说过："欲求超胜,必先会通。会通之前,必先翻译"。

02

Flink实战系列之自定义RetractStreamTableSink

Flink Table/SQL 中对于流表TableSink的定义有三类：AppendStreamTable、RetractStreamTableSink 、UpsertStreamTableSink ，这三类主要区别对应不同的流类型，在我看来可以归纳为两种模式：

04

使用管道符在PowerShell中进行各种数据操作

最近在培训PowerShell，在讲到Pipeline的时候，对于我这种长期和数据（数据库）打交道的人来说，觉得很实用，所以写此博文，记录一下。

02

Flink UDF--Table Functions&Aggregation Functions

与标量函数相似之处是输入可以0，1，或者多个参数，但是不同之处可以输出任意数目的行数。返回的行也可以包含一个或者多个列。

01

数据仓库开发 SQL 使用技巧总结

作者：dcguo 使用 sql 做数仓开发有一段时间了，现做一下梳理复盘，主要内容包括 sql 语法、特性、函数、优化、特殊业务表实现等。 mysql 数据结构常用 innodb 存储为 B+ 树特点多路平衡树，m 个子树中间节点就包含 m 个元素，一个中间节点是一个 page(磁盘页) 默认 16 kb；子节点保存了全部得元素，父节点得元素是子节点的最大或者最小元素，而且依然是有序得；节点元素有序，叶子节点双向有序，便于排序和范围查询。优势平衡查找树，logn 级别 crud；单一节点比二

03

Flink SQL 知其所以然（二十八）：Window TopN 操作

大家好，我是老羊，今天我们来学习 Flink SQL 中的 Window TopN 操作。

03

HCIP学习 | OSPF魔鬼知识点，你又知道多少呢？

OSPF 是 Open Shortest Path First 的简称，OSPF 是一种基于 SPF 算法的链路状态协议，同时 OSPF 也是一种内部网关协

04

flink sql 知其所以然（八）：flink sql tumble window 的奇妙解析之路

针对 datastream api 大家都比较熟悉了，还是那句话，在 datastream 中，你写的代码逻辑是什么样的，它最终的执行方式就是什么样的。

03

mongodb aggregate （聚合查询）联表 node+nest.js +monoose .js实现

mongodb的curd（增删改查）操作比较简单，但是开发者在开发过程中肯定是不够用的，如果遇到很复杂的查询操作，只查询单个表（mongodb中的集合，本人习惯称为表，以下不在赘述）是不能满足业务需求的，所以可能会连接外部表，或者查询本表之后经过分组，转化之后的临时表。或者连接外部表格链接后产生的临时表。以上这些case（时候）将会使用到本教程。

01

Elasticsearch索引之嵌套类型：深度剖析与实战应用

在Elasticsearch的实际应用中，嵌套文档是一个常见的需求，尤其是当我们需要对对象数组进行独立索引和查询时。在Elasticsearch中，这类嵌套结构被称为父子文档，它们能够“彼此独立地进行查询”。实现这一功能主要有两种方式：

01

客快物流大数据项目（九十七）：ClickHouse的SQL语法

ClickHouse中完整select的查询语法如下（除了SELECT关键字和expr_list以外，蓝色的字句都是可选的）：

06

Mysql资料查询SQL执行顺序

1.FROM 执行笛卡尔积 FROM 才是 SQL 语句执行的第一步，并非 SELECT 。对FROM子句中的前两个表执行笛卡尔积(交叉联接），生成虚拟表VT1，获取不同数据源的数据集。

00

DDD应对运营活动系统腐化实践

事件风暴事件：PM关心真实事件如：用户订单已发布，商品已发布说明：关注点在于什么领域模型发生了什么变化。

05

Hive 整体介绍

Hive可以管理HDFS中的数据，可以通过SQL语句可以实现与MapReduce类似的同能，因为Hive底层的实现就是通过调度MapReduce来实现的，只是进行了包装，对用户不可见。 Hive对HDFS的支持只是在HDFS中创建了几层目录，正真的数据存在在MySql中，MYSQL中保存了Hive的表定义，用户不必关系MySQL中的定义，该层对用户不可见。Hive中的库在HDFS中对应一层目录，表在HDFS中亦对应一层目录，如果在对应的表目录下放置与表定义相匹配的数据，即可通过Hive实现对数据的可视化及查询等功能综上所述，Hive实现了对HDFS的管理，通过MySQL实现了对HDFS数据的维度管理 Hive基本功能及概念 database table 外部表，内部表，分区表 Hive安装 1. MySql的安装（密码修改，远程用户登陆权限修改） 2. Hive安装获取，修改配置文件(HADOOP_HOME的修改，MySQL的修改) 3. 启动HDFS和YARN(MapReduce)，启动Hive Hive基本语法： 1. 创建库：create database dbname 2. 创建表：create table tbname Hive操作： 1. Hive 命令行交互式 2. 运行HiveServer2服务，客户端 beeline 访问交互式运行 3. Beeline 脚本化运行 3.1 直接在命令行模式下输入脚本命令执行(比较繁琐，容易出错，不好归档) 3.2 单独保存SQL 命令到文件，如etl.sql ，然后通过Beeline命令执行脚本数据导入： 1. 本地数据导入到 Hive表 load data local inpath "" into table .. 2. HDFS导入数据到 Hive表 load data inpath "" into table .. 3. 直接在Hive表目录创建数据 Hive表类型： 1. 内部表: create table 表数据在表目录下，对表的删除会导致表目录下的数据丢失，需要定义表数据的分隔符。 2. 外部表: create external table 表目录下挂载表数据，表数据存储在其他HDFS目录上，需要定义表数据的分隔符。 3. 分区表：与创建内部表相同，需要定义分区字段及表数据的分隔符。在导入数据时需要分区字段，然后会在表目录下会按照分区字段自动生成分区表，同样也是按照目录来管理，每个分区都是单独目录，目录下挂载数据文件。 4. CTAS建表 HQL 1. 单行操作：array，contain等 2. 聚合操作：(max,count,sum)等 3. 内连接，外连接（左外，右外，全外） 4. 分组聚合 groupby 5. 查询 : 基本查询，条件查询，关联查询 6. 子查询：当前数据源来源于另个数据执行的结果，即当前 table 为临时数据结果 7. 内置函数: 转换, 字符串, 函数转换：字符与整形，字符与时间，字符串：切割，合并，函数：contain，max/min，sum， 8. 复合类型 map（key，value）指定字符分隔符与KV分隔符 array（value）指定字符分隔符 struct(name,value) 指定字符分割与nv分隔符 9. 窗口分析函数 10. Hive对Json的支持

01

你好奇过 MySQL 内部临时表存了什么吗？

MySQL 临时表分为两种：外部临时表、内部临时表。用户通过 CREATE TEMPORARY TABLE 创建的是外部临时表。SQL 语句执行过程中 MySQL 自行创建的是内部临时表，explain 输出结果的 Extra 列出现了 Using temporary 就说明 SQL 语句执行时使用了内部临时表。

02

业务开发时，接口不能对外暴露怎么办？

在业务开发的时候，经常会遇到某一个接口不能对外暴露，只能内网服务间调用的实际需求。面对这样的情况，我们该如何实现呢？今天，我们就来理一理这个问题，从几个可行的方案中，挑选一个来实现。

03

flink sql 知其所以然（九）：window tvf tumble window 的奇思妙解

针对 datastream api 大家都比较熟悉了，还是那句话，在 datastream 中，你写的代码逻辑是什么样的，它最终的执行方式就是什么样的。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭