大数据学习与分享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享

专栏成员

170

文章

218968

阅读量

44

订阅数

Flink-CDC同步MySQL到Hive实践

hive flink mysql 实践同步

CDC是（Change Data Capture 变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。

大数据学习与分享

2023-11-30

7160

Hive静态分区、动态分区、多重分区全解析

hive 大数据腾讯云开发者社区

现有6份数据文件，分别记录了《王者荣耀》中6种位置的英雄相关信息。现要求通过建立一张表t_all_hero，把6份文件同时映射加载。

大数据学习与分享

2023-02-26

2.3K0

元数据管理实践&数据血缘

什么是元数据？元数据MetaData狭义的解释是用来描述数据的数据，广义的来看，除了业务逻辑直接读写处理的那些业务数据，所有其它用来维持整个系统运转所需的信息／数据都可以叫作元数据。比如数据表格的Schema信息，任务的血缘关系，用户和脚本／任务的权限映射关系信息等等。

大数据学习与分享

2023-02-26

1.9K0

如何用SQL实现用户行为漏斗分析

bash bash 指令 hadoop hive

1 每日活跃设备明细 dwd_start_log--->dws_uv_detail_day

大数据学习与分享

2022-05-19

2K0

Hadoop和Spark技术分享.ppt

spark hive linux mapreduce

Why Hive 相对于使用MapReduce，为什么使用Hive ？ MapReduce实现复杂业务逻辑开发难度大 Hive提供类SQL语法，避免写MapReduce程序，开发相对快速扩展功能方便，支持自定义函数适合于做数据仓库工具，如ETL处理，数据分析等 Why Spark 1. Spark 集流批处理、交互式查询、机器学习及图计算等于一体多线程模型，每个worker节点运行一个或多个executor服务，每个task作为线程运行在executor中，task间可共享资源基于

大数据学习与分享

2021-07-15

1.3K0

Hive常用性能优化方法实践全面总结

hive sql mapreduce 文件存储 javascript

Apache Hive作为处理大数据量的大数据领域数据建设核心工具，数据量往往不是影响Hive执行效率的核心因素，数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键。

大数据学习与分享

2020-12-14

2.6K0

SparkSQL真的不支持存储NullType类型数据到Parquet吗?

spark kafka 数据库 sql hive

最近后台有小伙伴提了一些实际工作中使用Spark遇到的问题，笔者挑选了几个相对常见的问题，分别从场景模拟/问题现象、问题分析、解决方案三个层面，来深入分析这些问题，并且提供一个解决类似问题的思路。

大数据学习与分享

2020-11-03

2.7K0

经典的SparkSQL/Hive-SQL/MySQL面试-练习题

32.查询每门课程的平均成绩，结果按平均成绩降序排列，平均成绩相同时，按课程编号升序排列

大数据学习与分享

2020-10-23

1.2K0

基于Hive进行数仓建设的资源元数据信息统计

hive 数据库 sql c++大数据

在数据仓库建设中，元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论，可以将元数据分为这三类：

大数据学习与分享

2020-08-28

3.4K0

Hive Query生命周期 —— 钩子（Hook）函数篇

hive linux hadoop mapreduce analyzer

无论你通过哪种方式连接Hive（如Hive Cli、HiveServer2），一个HQL语句都要经过Driver的解析和执行，主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。

大数据学习与分享

2020-08-10

3.7K1

Hive实现自增序列及元数据问题

hive xml jar sql 数据库

在利用数据仓库进行数据处理时，通常有这样一个业务场景，为一个Hive表新增一列自增字段（比如事实表和维度表之间的"代理主键"）。虽然Hive不像RDBMS如mysql一样本身提供自增主键的功能，但它本身可以通过函数来实现自增序列功能：利用row_number()窗口函数或者使用UDFRowSequence。

大数据学习与分享

2020-08-10

1.3K0

Hive数据导入HBase引起数据膨胀引发的思考

hbase TDSQL MySQL 版 hive 存储

最近朋友公司在做一些数据的迁移，主要是将一些Hive处理之后的热数据导入到HBase中，但是遇到了一个很奇怪的问题：同样的数据到了HBase中，所占空间竟增长了好几倍！详谈中，笔者建议朋友至少从几点原因入手分析：

大数据学习与分享

2020-08-10

7970

通过Spark生成HFile，并以BulkLoad方式将数据导入到HBase

hbase TDSQL MySQL 版 spark hive api

在实际生产环境中，将计算和存储进行分离，是我们提高集群吞吐量、确保集群规模水平可扩展的主要方法之一，并且通过集群的扩容、性能的优化，确保在数据大幅增长时，存储不能称为系统的瓶颈。

大数据学习与分享

2020-08-10

2.4K0

SparkSQL与Hive metastore Parquet转换

hive c++sql spark html

Spark SQL为了更好的性能，在读写Hive metastore parquet格式的表时，会默认使用自己的Parquet SerDe，而不是采用Hive的SerDe进行序列化和反序列化。该行为可以通过配置参数spark.sql.hive.convertMetastoreParquet进行控制，默认true。

大数据学习与分享

2020-08-10

1.6K0

Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理

hive sql 存储 spark

利用Spark往Hive中存储parquet数据，针对一些复杂数据类型如map、array、struct的处理遇到的问题？

大数据学习与分享

2020-08-10

2.3K0

Spark SQL 小文件问题处理

在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情。

大数据学习与分享

2020-08-10

2.6K0

Spark SQL | 目前Spark社区最活跃的组件之一

spark sql 数据库云数据库 SQL Server hive

Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此Spark SQL应运而生。

大数据学习与分享

2020-08-10

2.4K0

Hive Join优化

sql mapreduce hive jvm

在阐述Hive Join具体的优化方法之前，首先看一下Hive Join的几个重要特点，在实际使用时也可以利用下列特点做相应优化：

大数据学习与分享

2020-08-10

1.1K0

Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件

hive spark sql 数据库

sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？

大数据学习与分享

2020-08-10

2.5K0

Hive Join优化

hive hadoop 大数据

在阐述Hive Join具体的优化方法之前，首先看一下Hive Join的几个重要特点，在实际使用时也可以利用下列特点做相应优化：

大数据学习与分享

2020-07-31

2.2K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态