腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据学习与分享
专注于大数据领域常用技术的学习与分享
专栏作者
举报
167
文章
193264
阅读量
42
订阅数
订阅专栏
申请加入专栏
全部文章(167)
spark(52)
大数据(48)
sql(33)
编程算法(21)
hive(21)
node.js(17)
数据库(17)
腾讯云开发者社区(17)
mapreduce(16)
hadoop(16)
网站(14)
存储(14)
linux(13)
kafka(13)
hbase(12)
数据(12)
TDSQL MySQL 版(10)
缓存(9)
文件存储(8)
分布式(8)
java(7)
企业(7)
jvm(7)
数据分析(7)
scala(6)
数据处理(6)
数据湖(6)
javascript(5)
api(5)
yarn(5)
flink(5)
系统(5)
云数据库 SQL Server(4)
云数据库 Redis(4)
数据安全(4)
数据迁移(4)
hashmap(4)
数据管理(4)
数据挖掘(3)
机器学习(3)
c++(3)
vr 视频解决方案(3)
http(3)
tcp/ip(3)
nest(3)
mysql(3)
管理(3)
模型(3)
数据仓库(3)
php(2)
python(2)
bash(2)
html(2)
apache(2)
神经网络(2)
日志服务(2)
日志数据(2)
电商(2)
大数据解决方案(2)
socket编程(2)
数据结构(2)
数据集成(2)
clickhouse(2)
架构(2)
解决方案(2)
开发(2)
设计(2)
实践(2)
对象存储(1)
servlet(1)
xml(1)
css(1)
jquery(1)
json(1)
android(1)
oracle(1)
jar(1)
tomcat(1)
analyzer(1)
bash 指令(1)
spring(1)
深度学习(1)
大数据处理套件 TBDS(1)
es 2(1)
容器(1)
开源(1)
运维(1)
压力测试(1)
网络安全(1)
jdk(1)
面向对象编程(1)
zookeeper(1)
grep(1)
rpc(1)
安全(1)
windows(1)
架构设计(1)
聚类算法(1)
es(1)
Elasticsearch Service(1)
智能制造(1)
etl(1)
informatica(1)
presto(1)
产品(1)
对象(1)
基础(1)
连接(1)
流量(1)
配置(1)
日志(1)
事务(1)
数据中心(1)
同步(1)
统计(1)
性能(1)
主机(1)
数据建模(1)
数据架构(1)
搜索文章
搜索
搜索
关闭
大数据开发流程及规范
大数据
开发
模型
数据
系统
在大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会降低研发效率,增加成本与风险。
大数据学习与分享
2023-09-18
581
0
大数据架构平台架构设计和技术分析
大数据
架构设计
架构
数据
数据架构
本文首先介绍了大数据架构平台的组件架构,让读者了解大数据平台的全貌,然后分别介绍数据集成、存储与计算、分布式调度、查询分析等方面的观点,最后是专家眼里大数据平台架构的发展趋势。
大数据学习与分享
2023-09-18
914
0
Hive静态分区、动态分区、多重分区全解析
hive
大数据
腾讯云开发者社区
现有6份数据文件,分别记录了《王者荣耀》中6种位置的英雄相关信息。现要求通过建立一张表t_all_hero,把6份文件同时映射加载。
大数据学习与分享
2023-02-26
1.9K
0
数据湖架构落地实战
数据湖
数据安全
大数据
数据分析
与传统的数据架构要求整合、面向主题、固定分层等特点不同,数据湖为企业全员独立参与数据运营和应用创新提供了极大的灵活性,并可优先确保数据的低时延、高质量和高可用,给运营商数据架构优化提供了很好的参考思路。
大数据学习与分享
2023-02-26
511
0
实时数仓架构的演进与对比
数据湖
数据挖掘
数据库
大数据
数据分析
1991年,比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。
大数据学习与分享
2023-02-26
895
0
为什么实时数仓不可代替?
数据湖
数据库
大数据
数据处理
sql
大数据时代中,数据仓库解决了商业智能分析过程中的数据管理问题,但是存在烟囱式、冗余高的弊端
大数据学习与分享
2023-02-26
482
0
元数据管理实践&数据血缘
大数据
hive
什么是元数据?元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。
大数据学习与分享
2023-02-26
1.6K
0
大数据能力平台建设方案
大数据
腾讯云开发者社区
网站
机器学习
神经网络
近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据资产。
大数据学习与分享
2022-12-14
758
0
数字孪生之十大问
大数据
智能制造
数据集成
本文对以下十个问题进行了深入分析与思考,以期抛砖引玉,为研究者更好理解数字孪生,为决策者理性和正确对待数字孪生,为实践者更好落地应用数字孪生提供参考。
大数据学习与分享
2022-12-12
657
0
BI和报表到底有什么区别?
数据挖掘
数据库
大数据
sql
数据分析
在很多人入门数据分析师或者投身大数据行业的时候,必然会听到的两个词就是“报表工具”和“BI商业智能”。然而很多人并不明白两者的概念和区别,以为报表就是BI,BI就是报表。
大数据学习与分享
2022-12-12
519
0
数据仓库体系之贴源层、历史层
数据库
大数据
sql
存储
oracle
贴源层,一般来说抽取的是源系统的数据,是一个数据缓冲区,和源系统保持一致,但并不是说贴源层的数据就可原来的一模一样不变了
大数据学习与分享
2022-07-13
4.4K
0
数据治理与大数据平台设计方案
大数据
📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷
大数据学习与分享
2022-07-13
207
0
大数据平台规划方案汇报
大数据
📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷
大数据学习与分享
2022-05-19
350
0
数据治理平台功能架构规划
大数据
狭义上讲,数据治理是指对数据质量的管理、专注在数据本身。广义上讲,数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。
大数据学习与分享
2022-05-19
1.9K
0
监听MySQL的binlog日志工具分析:Canal
云数据库 SQL Server
大数据解决方案
日志服务
日志数据
大数据
Canal是阿里巴巴旗下的一款开源项目,利用Java开发。主要用途是基于MySQL数据库增量日志解析,提供增量数据订阅和消费,目前主要支持MySQL。
大数据学习与分享
2020-10-17
1.8K
0
从HBase底层原理解析HBASE列族不能设计太多的原因?
存储
缓存
hbase
TDSQL MySQL 版
大数据
通过上述文章的介绍,我们了解到: HBase底层存储依赖于HDFS,HBase中table在行的方向上分割为多个region,它是HBase负载均衡的最小单元,可以分布在不同的RegionServer上,但是一个region不能拆分到多个RegionServer上。
大数据学习与分享
2020-09-23
1.8K
0
spark和kafka jar包冲突NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream
spark
kafka
大数据
在利用Spark和Kafka处理数据时,有时会同时在maven pom中引入Spark和Kafka的相关依赖。但是当利用Spark SQL处理数据生成的DataSet/DataFrame进行collect或者show等操作时,抛出以下异常信息:
大数据学习与分享
2020-08-31
1.3K
0
基于Hive进行数仓建设的资源元数据信息统计
hive
数据库
sql
c++
大数据
在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类:
大数据学习与分享
2020-08-28
3.2K
0
如何有效恢复误删的HDFS文件
node.js
javascript
大数据
HDFS是大数据领域比较知名的分布式存储系统,作为大数据相关从业人员,每天处理HDFS上的文件数据是常规操作。这就容易带来一个问题,实际操作中对重要数据文件的误删,那么如何恢复这些文件,就显得尤为重要。
大数据学习与分享
2020-08-17
2.2K
0
如何获取流式应用程序中checkpoint的最新offset
node.js
spark
kafka
flink
大数据
对于流式应用程序,保证应用7*24小时的稳定运行,是非常必要的。因此对于计算引擎,要求必须能够适应与应用程序逻辑本身无关的问题(比如driver应用失败重启、网络问题、服务器问题、JVM崩溃等),具有自动容错恢复的功能。
大数据学习与分享
2020-08-10
1.3K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档