如何在hive中获取季度的最后一天_KDB获取季度的最后一天/第一天_获取此日期所在季度的前一季度的最后一天的日期 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

助力工业物联网，工业大数据之数仓维度层DWS层构建【十二】

Flink集成Iceberg在同程艺龙的实践

过去几年，数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时，二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构，而是在一定程度上结合二者的优势重新构建。在云厂商和开源技术方案的共同推动之下，2021 年我们将会看到更多“湖仓一体”的实际落地案例。InfoQ 希望通过选题的方式对数据湖和数仓融合架构在不同企业的落地情况、实践过程、改进优化方案等内容进行呈现。本文将分享同程艺龙将 Flink 与 Iceberg 深度集成的落地经验和思考。

Flink集成iceberg在生产环境中的实践

目前我们的大数据系统里，主要承接的业务是部门内的一些业务日志数据的统计、分析等，比如网关日志数据，服务器监控数据，k8s容器的相关日志数据，app的打点日志等。主要的流任务是flink任务是消费kafka的数据，经过各种处理之后通过flink sql或者flink jar实时写入hive，由于业务对数据的实时性要求比较高，希望数据能尽快的展示出来，所以我们很多的flink任务的checkpoint设置为1分钟，而数据格式采用的是orc格式，所以不可避免的出现了一个在大数据处理领域非常常见但是很麻烦的问题，即hdfs小文件问题。

如何使用java代码通过JDBC访问Sentry环境下的Hive

在前面的文章Fayson介绍了《如何使用java代码通过JDBC连接Hive(附github源码)》、《如何使用java代码通过JDBC连接Impala(附Github源码)》和《如何使用Java访问集成OpenLDAP并启用Sentry的Impala和Hive》，关于Hive和Impala如何启用Sentry可以参考Fayson前面的文章《如何在CDH启用Kerberos的情况下安装及使用Sentry(一)》，《如何在CDH启用Kerberos的情况下安装及使用Sentry(二)》和《如何在CDH未启用认证的情况下安装及使用Sentry》，在集群只启用了Sentry的情况下如何访问？本篇文章主要介绍在集群只启用了Sentry后使用Java通过JDBC访问的区别以及在beeline命令行如何访问。

如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》。本文主要介绍当集群启用Kerberos和Sentry后，如何实现Spark SQL的权限管理。因为社区版Spark SQL并未做任何权限控制。

一场pandas与SQL的巅峰大战（四）

具体来讲，第一篇文章一场pandas与SQL的巅峰大战涉及到数据查看，去重计数，条件选择，合并连接，分组排序等操作。

Hive 大数据表性能调优

Hive表是一种依赖于结构化数据的大数据表。数据默认存储在 Hive 数据仓库中。为了将它存储在特定的位置，开发人员可以在创建表时使用 location 标记设置位置。Hive 遵循同样的 SQL 概念，如行、列和模式。

基于Flink+Hive构建流批一体准实时数仓

基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性，但由于它是离线的，延时很大。在一些对延时要求比较高的场景，需要另外搭建基于 Flink 的实时数仓，将链路延时降低到秒级。但是一套离线数仓加一套实时数仓的架构会带来超过两倍的资源消耗，甚至导致重复开发。

Kettle构建Hadoop ETL实践（四）：建立ETL示例模型

从本篇开始，介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例，说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介绍一个小而典型的销售订单示例，描述业务场景，说明示例中包含的实体和关系，并在MySQL数据库上建立源数据库表并生成初始的数据。我们要在Hive中创建源数据过渡区和数据仓库的表，因此需要了解与Hive创建表相关的技术问题，包括使用Hive建立传统多维数据仓库时，如何选择适当的文件格式，Hive支持哪些表类型，向不同类型的表中装载数据时具有哪些不同特性。我们将以实验的方式对这些问题加以说明。在此基础上，我们就可以编写Hive的HiveQL脚本，建立过渡区和数据仓库中的表。本篇最后会说明日期维度的数据装载方式及其Kettle实现。

SparkSQL 在有赞的实践

有赞数据平台从 2017 年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：

Hive案例01-行列转换

其中字段意义: id(int) sid(int) subject(string) score(int) 分别代表: 本条记录的ID 学生ID 科目成绩需求: 求数学成绩比语文成绩好的学生的ID

SQL系列（二）最常见的业务实战

本文将通过构建三张表，几个SQL实例带大家掌握最常见的业务需求，同时这些实例也覆盖了面试中80%的考点。

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

数据应用，是真正体现数仓价值的部分，包括且又不局限于数据可视化、BI、OLAP、即席查询，实时大屏，用户画像，推荐系统，数据分析，数据挖掘，人脸识别，风控反欺诈等等。

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

☞ 03.OLAP引擎 [ Kylin Druid Presto Impala Kudu ADB ES .. ]

电商创业项目_电商项目模块与模块的实现思路

外部数据需要使用Flume进行数据采集操作，将采集到的数据映射到Hive中，首先创建Hive的表

MySQL 常用时间范围查询SQL样例

特殊说明：第三方平台不会及时同步本文章最新内容，如果觉得本文资料不全，可以访问本人Java博客搜索：标题类似的关键字上述文章均是我实际操作后产出，烦请各位，请勿直接盗用！转载记得标注原文链接：www.zanglikun.com

复习:聊聊hive随机采样①

数据量大的时候，对数据进行采样，然后再做模型分析。作为数据仓库的必备品hive，我们如何对其进行采样呢？

0645-6.2.0-为什么我在CDH6上使用Spark2.4 Thrift失败了

Fayson在前面的文章中介绍过什么是Spark Thrift，Spark Thrift的缺陷，以及Spark Thrift在CDH5中的使用情况，参考《0643-Spark SQL Thrift简介》。

如何集成OpenLDAP+Sentry.docx

前面Fayson讲了如何安装OpenLDAP及CDH集群集成OpenLDAP等一系列文章，本篇文章主要介绍集成OpenLDAP后的CDH集群在启用Sentry服务后如何为OpenLDAP中的用户进行Sentry授权，在学习本章知识前你需要了解：

《早起魔法》第二部分凌晨5点蓝图

第4章　万丈高楼平地起——计划一场华丽的冒险超级高效能“7步法” 多年来我坚持早起追求人生的宏伟目标，并将自己最棒的心得、策略和方法总结成为一套循序渐进的系统，叫作“凌晨5点蓝图”。它包含7个步骤，

对比Pig、Hive和SQL，浅看大数据工具之间的差异

【编者按】在笔者看来，语言和工具之争从来都没有太大的意义，所谓存在既有道理，如何在场景下做出最合适的选择才至关重要。本文，DeZyre公司专家Manisha Nandy Mazumder对比了Pig、Hive和SQL的区别，并为读者浅谈了一些选择标准。以下为译文有人说对于大数据分析来说Hadoop才是炙手可热的新技术，SQL虽然久经考验但已经有些过时了。这话说得不错，但有非常多的项目都用Hadoop作为数据存储，而以SQL构建前端查询，这说明Hadoop确实需要一种高级的查询语言。为了简化Hadoop的

用Python进行时间序列分解和预测

本文介绍了用Python进行时间序列分解的不同方法，以及如何在Python中进行时间序列预测的一些基本方法和示例。

靠直播赚大钱后，摆脱直播依赖成为9158们的新目标

移动直播经过两年极速狂飙之后，正在迎来天花板。一方面，千播大战经历淘汰赛之后不少玩家都已出局，盈利艰难、政府监管等因素更是加速了淘汰过程。直播领域的明星创业公司Meerkat和光圈宣告倒闭，现在成

05-如何为Hive集成AD认证

Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Active Directory安装证书服务并配置》、《03-Active Directory的使用与验证》和《04-如何在RedHat7上配置OpenLDAP客户端及集成SSSD服务和集成SSH登录》，前面完成了AD服务的基本集成接下来就来实现与CDH各个服务的集成。本篇文章Fayson主要介绍Hive与AD集成。

一文搞懂：离线数据、实时数据究竟该如何选择

做数据和用数据的人绕不开的问题是数据的时效性，离线数据、实时数据分别指的是什么，业务应用时，究竟该以什么标准选择呢?很多业务产品或运营搞不懂两者的区别。提数据分析需求，想着肯定越实时越好，数据团队怎样

linux退出hive命令

在使用Hive进行数据查询和操作时，有时候我们需要退出Hive命令行界面。本文将介绍如何在Linux系统中退出Hive命令行。

0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成

在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》，同时Flink也提供了SQL Client的能力，可以通过一种简单的方式来编写、调试和提交程序到Flink集群，而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成，主要有如下两个目的：

狂揽1亿美元，被FBI渗透长达六个月，2022年最暴利的组织凉了

2023年1月26日，美国司法部和欧洲刑警组织共同宣布，经过长达6个月的渗透，臭名昭著的Hive 勒索软件组织被FBI和国际刑警破获：该组织的IT基础设施已经完全被破坏，Tor支付和数据泄露站点被查封，警方获得两台服务器和一台虚拟专用服务器的访问权，并对在荷兰托管的两个备份专用服务器的访问权限......

hive 判断某个字段长度

在Hive中，有时我们需要对表中某个字段的长度进行判断，以便进行数据清洗、筛选或其他操作。本文将介绍如何在Hive中判断某个字段的长度，并给出示例代码。

MySQL的日期时间计算速查表

最近写个SQL逻辑，涉及到计算各种日期和时间，MySQL提供了很丰富的函数来支持，记录一下，用的时候，有地方可查。

0860-5.16.2-如何统计Hive表的分区数、小文件数量和表大小

本篇文章主要介绍如何在CDH 5.16.2集群中获取所有Hive表的分区数、小文件数量、表大小。

Facebook数据仓库的变迁与启示

在大数据时代，数据仓库的架构和管理是企业数据驱动决策的核心。Facebook，作为全球最大的社交媒体平台，其数据仓库的架构和管理策略对于处理海量数据尤为关键。本文将基于徐文浩在《大数据经典论文解读》的讲解，深入探讨Facebook数据仓库的架构变迁，以及这些变迁对现代大数据系统的启示。

hivesql和prestosql对比

最近很多时候需要将hivesql转化为prestosql ,这里面有很多不能直接复用需要调整func甚至改用其他逻辑。

oracle日期时间函数总结

常常写 sql 的同学应该会接触到一些 oracle 的日期时间函数, 比如: 財务软件或者人力资源软件须要依照每年, 每季度, 每月, 甚至每一个星期来进行统计.

spark on yarn 如何集成elasticsearch

📷 随着spark越来越流行，我们的很多组件都有可能和spark集成，比如说spark处理完的数据写入mysql，redis，或者hbase，elasticsearch，spark本身不包含db的依赖的，这就需要自己解决依赖的jar包，这里大致有两种处理思路处理依赖问题：（1）使用maven将整个依赖打成一个fat的jar，这样所有的依赖都会在一个jar包，这样的好处就是一个jar包包含所有依赖，不需要额外考虑依赖的问题，但是弊端也非常明显如果依赖多的话jar包的体积会非常大超过100M都很正常

索罗斯清仓NVIDIA股票！AI龙头见顶药丸？先别慌……

量子位 | 若朴李林发自墙街 △ 索罗斯 vs NVIDIA 索罗斯清仓NVIDIA股票？没错，金融大鳄乔治-索罗斯旗下的对冲基金，已经把手上持有的全部NVIDIA股票抛掉了，一股不剩全部卖出

apache sgoop 导入数据到 oracle、导出数据到 oracle 实现

业务场景：是在oracle 数据库和 hive 数据库中，有多个相同结构的表，要求数据从2个库定时双向同步。

如何在启用Kerberos的CDH中部署及使用Kylin

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 我们在前面的文章简单介绍过Apache Kylin，请参考《如何在CDH中部署及使用Kylin》，文章中包含了如何在CDH上部署Kylin，以及创建cube，然后进行查询的两个demo例子。但对于CDH的生产系统，往往都会部署配置安全多租户，即Kerberos+Sentry，当C

0562-05-5.15.0-如何为Hive集成FreeIPA的用户认证

前面Fayson文章讲《0558-01-如何在Redhat7上安装FreeIPA》、《0561-04-如何将CDH集成的KDC迁移至FreeIPA的Kerberos认证》和《0559-02-如何在Redhat7上安装FreeIPA的客户端》，FreeIPA集成了用户管理及Kerberos认证，本篇文章Fayson主要介绍如何在CDH集群中为Hive集成FreeIPA的用户认证。

Hive 时间转换函数使用心得

Hive sql 与传统的 oracle 或者mysql 的时间转换函数有一些不同，对于想将传统数据库迁移到hdfs 用 hive sql 进行处理的任务，如何用 hive sql 实现传统数据库sql 时间转换函数，是一个必须要解决的问题。

018

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐