腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据学习与分享
专注于大数据领域常用技术的学习与分享
专栏成员
举报
170
文章
218968
阅读量
44
订阅数
订阅专栏
申请加入专栏
全部文章(170)
spark(52)
大数据(48)
sql(33)
编程算法(21)
hive(21)
node.js(17)
数据库(17)
腾讯云开发者社区(17)
mapreduce(16)
hadoop(16)
数据(15)
网站(14)
存储(14)
linux(13)
kafka(13)
hbase(12)
TDSQL MySQL 版(10)
企业(9)
缓存(9)
文件存储(8)
分布式(8)
java(7)
jvm(7)
数据分析(7)
数据湖(7)
scala(6)
数据处理(6)
系统(6)
javascript(5)
api(5)
yarn(5)
flink(5)
云数据库 SQL Server(4)
云数据库 Redis(4)
数据安全(4)
数据迁移(4)
hashmap(4)
管理(4)
数据管理(4)
数据挖掘(3)
机器学习(3)
c++(3)
vr 视频解决方案(3)
http(3)
tcp/ip(3)
nest(3)
数据集成(3)
mysql(3)
架构(3)
模型(3)
数据仓库(3)
php(2)
python(2)
bash(2)
html(2)
apache(2)
神经网络(2)
日志服务(2)
日志数据(2)
电商(2)
大数据解决方案(2)
socket编程(2)
数据结构(2)
clickhouse(2)
服务(2)
解决方案(2)
开发(2)
连接(2)
设计(2)
实践(2)
对象存储(1)
servlet(1)
xml(1)
css(1)
jquery(1)
json(1)
android(1)
oracle(1)
jar(1)
tomcat(1)
analyzer(1)
bash 指令(1)
spring(1)
深度学习(1)
大数据处理套件 TBDS(1)
es 2(1)
容器(1)
开源(1)
运维(1)
压力测试(1)
网络安全(1)
jdk(1)
面向对象编程(1)
zookeeper(1)
grep(1)
rpc(1)
安全(1)
windows(1)
架构设计(1)
聚类算法(1)
es(1)
Elasticsearch Service(1)
智能制造(1)
etl(1)
informatica(1)
it(1)
presto(1)
产品(1)
对象(1)
基础(1)
框架(1)
流量(1)
配置(1)
日志(1)
事务(1)
数据中心(1)
同步(1)
统计(1)
性能(1)
主机(1)
数据建模(1)
数据架构(1)
搜索文章
搜索
搜索
关闭
Flink-CDC同步MySQL到Hive实践
hive
flink
mysql
实践
同步
CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
大数据学习与分享
2023-11-30
716
0
Hive静态分区、动态分区、多重分区全解析
hive
大数据
腾讯云开发者社区
现有6份数据文件,分别记录了《王者荣耀》中6种位置的英雄相关信息。现要求通过建立一张表t_all_hero,把6份文件同时映射加载。
大数据学习与分享
2023-02-26
2.3K
0
元数据管理实践&数据血缘
大数据
hive
什么是元数据?元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。
大数据学习与分享
2023-02-26
1.9K
0
如何用SQL实现用户行为漏斗分析
bash
bash 指令
hadoop
hive
1 每日活跃设备明细 dwd_start_log--->dws_uv_detail_day
大数据学习与分享
2022-05-19
2K
0
Hadoop和Spark技术分享.ppt
spark
hive
linux
mapreduce
Why Hive 相对于使用MapReduce,为什么使用Hive ? MapReduce实现复杂业务逻辑开发难度大 Hive提供类SQL语法,避免写MapReduce程序,开发相对快速 扩展功能方便,支持自定义函数 适合于做数据仓库工具,如ETL处理,数据分析等 Why Spark 1. Spark 集流批处理、交互式查询、机器学习及图计算等于一体 多线程模型,每个worker节点运行一个或多个executor服务,每个task作为线程运行在executor中,task间可共享资源 基于
大数据学习与分享
2021-07-15
1.3K
0
Hive常用性能优化方法实践全面总结
hive
sql
mapreduce
文件存储
javascript
Apache Hive作为处理大数据量的大数据领域数据建设核心工具,数据量往往不是影响Hive执行效率的核心因素,数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键。
大数据学习与分享
2020-12-14
2.6K
0
SparkSQL真的不支持存储NullType类型数据到Parquet吗?
spark
kafka
数据库
sql
hive
最近后台有小伙伴提了一些实际工作中使用Spark遇到的问题,笔者挑选了几个相对常见的问题,分别从场景模拟/问题现象、问题分析、解决方案三个层面,来深入分析这些问题,并且提供一个解决类似问题的思路。
大数据学习与分享
2020-11-03
2.7K
0
经典的SparkSQL/Hive-SQL/MySQL面试-练习题
sql
hive
mysql
32.查询每门课程的平均成绩,结果按平均成绩降序排列,平均成绩相同时,按课程编号升序排列
大数据学习与分享
2020-10-23
1.2K
0
基于Hive进行数仓建设的资源元数据信息统计
hive
数据库
sql
c++
大数据
在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类:
大数据学习与分享
2020-08-28
3.4K
0
Hive Query生命周期 —— 钩子(Hook)函数篇
hive
linux
hadoop
mapreduce
analyzer
无论你通过哪种方式连接Hive(如Hive Cli、HiveServer2),一个HQL语句都要经过Driver的解析和执行,主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。
大数据学习与分享
2020-08-10
3.7K
1
Hive实现自增序列及元数据问题
hive
xml
jar
sql
数据库
在利用数据仓库进行数据处理时,通常有这样一个业务场景,为一个Hive表新增一列自增字段(比如事实表和维度表之间的"代理主键")。虽然Hive不像RDBMS如mysql一样本身提供自增主键的功能,但它本身可以通过函数来实现自增序列功能:利用row_number()窗口函数或者使用UDFRowSequence。
大数据学习与分享
2020-08-10
1.3K
0
Hive数据导入HBase引起数据膨胀引发的思考
hbase
TDSQL MySQL 版
hive
存储
最近朋友公司在做一些数据的迁移,主要是将一些Hive处理之后的热数据导入到HBase中,但是遇到了一个很奇怪的问题:同样的数据到了HBase中,所占空间竟增长了好几倍!详谈中,笔者建议朋友至少从几点原因入手分析:
大数据学习与分享
2020-08-10
797
0
通过Spark生成HFile,并以BulkLoad方式将数据导入到HBase
hbase
TDSQL MySQL 版
spark
hive
api
在实际生产环境中,将计算和存储进行分离,是我们提高集群吞吐量、确保集群规模水平可扩展的主要方法之一,并且通过集群的扩容、性能的优化,确保在数据大幅增长时,存储不能称为系统的瓶颈。
大数据学习与分享
2020-08-10
2.4K
0
SparkSQL与Hive metastore Parquet转换
hive
c++
sql
spark
html
Spark SQL为了更好的性能,在读写Hive metastore parquet格式的表时,会默认使用自己的Parquet SerDe,而不是采用Hive的SerDe进行序列化和反序列化。该行为可以通过配置参数spark.sql.hive.convertMetastoreParquet进行控制,默认true。
大数据学习与分享
2020-08-10
1.6K
0
Spark存储Parquet数据到Hive,对map、array、struct字段类型的处理
hive
sql
存储
spark
利用Spark往Hive中存储parquet数据,针对一些复杂数据类型如map、array、struct的处理遇到的问题?
大数据学习与分享
2020-08-10
2.3K
0
Spark SQL 小文件问题处理
hive
spark
sql
在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼的事情。
大数据学习与分享
2020-08-10
2.6K
0
Spark SQL | 目前Spark社区最活跃的组件之一
spark
sql
数据库
云数据库 SQL Server
hive
Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生。
大数据学习与分享
2020-08-10
2.4K
0
Hive Join优化
sql
mapreduce
hive
jvm
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化:
大数据学习与分享
2020-08-10
1.1K
0
Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件
hive
spark
sql
数据库
sparksql处理Hive表数据时,判断加载的是否是分区表,以及分区表的字段有哪些?再进一步限制查询分区表必须指定分区?
大数据学习与分享
2020-08-10
2.5K
0
Hive Join优化
hive
hadoop
大数据
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化:
大数据学习与分享
2020-07-31
2.2K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档