腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏作者
举报
635
文章
1280092
阅读量
316
订阅数
订阅专栏
申请加入专栏
全部文章(635)
大数据(273)
sql(163)
数据库(129)
kafka(105)
spark(100)
flink(91)
编程算法(83)
apache(70)
存储(60)
hive(59)
java(52)
node.js(52)
api(52)
数据(43)
hadoop(41)
文件存储(39)
缓存(39)
hbase(36)
云数据库 SQL Server(35)
TDSQL MySQL 版(33)
数据处理(31)
分布式(29)
数据结构(28)
scala(25)
云数据库 Redis(24)
mapreduce(24)
数据分析(20)
javascript(19)
linux(19)
yarn(18)
https(18)
python(17)
网络安全(17)
unix(16)
jvm(16)
windows(16)
zookeeper(14)
打包(13)
消息队列 CMQ 版(13)
开发(13)
批量计算(12)
http(12)
bash(11)
数据湖(11)
数据迁移(10)
云计算(10)
面试(10)
xml(9)
企业(9)
数据安全(9)
Elasticsearch Service(9)
bash 指令(8)
腾讯云测试服务(8)
面向对象编程(8)
框架(8)
优化(8)
jar(7)
运维(7)
processing(7)
机器学习(6)
json(6)
日志数据(6)
开源(6)
hashmap(6)
tcp/ip(6)
rabbitmq(6)
数据可视化(6)
微服务(6)
架构(6)
html(5)
神经网络(5)
深度学习(5)
压力测试(5)
jdbc(5)
rpc(5)
nosql(4)
spring(4)
网站(4)
express(4)
sql server(4)
nest(4)
任务调度(4)
es(4)
数据集成(4)
工具(4)
配置(4)
数据管理(4)
系统(4)
性能(4)
oracle(3)
github(3)
maven(3)
人工智能(3)
vr 视频解决方案(3)
electron(3)
容器(3)
shell(3)
socket编程(3)
kerberos(3)
性能测试(3)
实时数仓(3)
测试(3)
工作(3)
行业(3)
集群(3)
内存(3)
设计(3)
实践(3)
索引(3)
原理(3)
对象存储(2)
官方文档(2)
数据挖掘(2)
css(2)
ajax(2)
android(2)
ide(2)
lucene/solr(2)
nginx(2)
容器镜像服务(2)
海外加速(2)
mongodb(2)
rollup.js(2)
kubernetes(2)
uml(2)
架构设计(2)
5g(2)
迁移(2)
clickhouse(2)
报表(2)
产品(2)
磁盘(2)
函数(2)
后端(2)
监控(2)
解决方案(2)
模型(2)
排序(2)
事件(2)
异常(2)
最佳实践(2)
负载均衡(1)
自动驾驶(1)
ios(1)
iphone(1)
php(1)
go(1)
lua(1)
erlang(1)
regex(1)
react(1)
typescript(1)
postgresql(1)
flask(1)
sqlalchemy(1)
git(1)
搜索引擎(1)
负载均衡缓存(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
腾讯云可观测平台(1)
命令行工具(1)
云数据库 MongoDB(1)
es 2(1)
图像处理(1)
数据备份(1)
电商(1)
出行(1)
serverless(1)
游戏(1)
无人驾驶(1)
jdk(1)
推荐系统(1)
markdown(1)
zabbix(1)
微信(1)
机器人(1)
物联网(1)
系统架构(1)
腾讯云开发者社区(1)
安全治理(1)
raft(1)
实时监控(1)
数据库管理(1)
流计算 Oceanus(1)
大数据存储(1)
汽车(1)
腾讯云(1)
bi(1)
bigdata(1)
block(1)
class(1)
code(1)
combine(1)
configuration(1)
csv(1)
data(1)
dp(1)
export(1)
fifo(1)
hash(1)
import(1)
ip(1)
key(1)
memory(1)
mysql(1)
netty(1)
populate(1)
properties(1)
pulsar(1)
queue(1)
rank(1)
root(1)
scheduler(1)
select(1)
state(1)
sum(1)
table(1)
task(1)
time(1)
vi(1)
window(1)
报表工具(1)
登录(1)
队列(1)
服务(1)
高性能(1)
管理(1)
规范化(1)
基础(1)
架构师(1)
接口(1)
连接(1)
日志(1)
入门(1)
实时计算(1)
数据采集(1)
数据同步(1)
算法(1)
微信公众号(1)
线程(1)
效率(1)
协议(1)
研发(1)
语法(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎
linux
spark
hive
sql
mapreduce
Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。
王知无-import_bigdata
2021-10-27
2.9K
0
大数据之Hadoop企业级生产调优手册(下)
大数据
存储
xml
hadoop
mapreduce
注:演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。
王知无-import_bigdata
2021-10-13
529
0
他来了他来了,Hadoop序列化和切片机制了解一下?
mapreduce
文件存储
腾讯云测试服务
一个超大文件在HDFS上存储时,是以多个Block存储在不同的节点上,比如一个512M的文件,HDFS默认一个Block为128M,那么1G的文件分成4个Block存储在集群中4个节点上。
王知无-import_bigdata
2021-09-22
612
0
当我们在学习Hive的时候在学习什么?「硬刚Hive续集」
mapreduce
spark
hive
ide
sql
我在之前的硬刚系列《大数据方向另一个十年开启 |《硬刚系列》第一版完结》中写过一个《硬刚Hive | 4万字基础调优面试小总结》,这个小结里基本涵盖了你所看过的关于Hive的常见的知识和面试八股文。
王知无-import_bigdata
2021-07-30
635
0
Spark Job 逻辑执行图和数据依赖解析
css
mapreduce
spark
了解了 Job 的逻辑执行图后,写程序时候会在脑中形成类似上面的数据依赖图。然而,实际生成的 RDD 个数往往比我们想想的个数多。
王知无-import_bigdata
2021-04-21
730
0
Hive常用参数调优十二板斧
mapreduce
linux
编程算法
大数据
hive
hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数
王知无-import_bigdata
2020-12-08
2K
0
Hive性能调优 | 并行执行/严格模式/JVM重用/推测执行
jvm
hadoop
hive
mapreduce
xml
通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。
王知无-import_bigdata
2020-11-06
718
0
Hive性能调优 | 数据倾斜
mapreduce
hadoop
大数据
linux
当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。针对上面的第4条 假设有这样一个任务:
王知无-import_bigdata
2020-11-06
728
0
Hive性能调优 | Fetch抓取
linux
hive
mapreduce
大数据
我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。
王知无-import_bigdata
2020-11-06
522
0
HBase操作组件:Hive、Phoenix、Lealone
mapreduce
hive
jdbc
api
性能测试
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
王知无-import_bigdata
2020-07-21
1.6K
0
SparkSQL的自适应执行-Adaptive Execution
sql
spark
mapreduce
https
网络安全
Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。核心在于两点
王知无-import_bigdata
2020-07-03
1.5K
0
MapReduce性能优化大纲
文件存储
mapreduce
大数据
hadoop
检测系统瓶颈 性能调优 创建一项基线,用来评估系统的首次运行性能(即集群默认配置) 分析Hadoop计数器,修改,调整配置,并重新执行任务,与基线进行比较 重复执行第2步,直到最高效率 识别资源瓶颈 内存瓶颈 当发现节点频繁出现虚拟内存交换时表示出现了内存瓶颈 CPU瓶颈 通常情况下,处理器负载超过90%,在多处理器系统上整体负载超过50% 判断是否是单个特定线程独占了CPU IO瓶颈 磁盘持续活动率超过85%(也有可能是由CPU或内存导致) 网络带宽瓶颈 在输出结果或shuffle阶段从map拉取数据时
王知无-import_bigdata
2020-06-01
1K
0
Spark性能优化总结
spark
python
缓存
linux
mapreduce
Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。通过都会将数据序列化,降低其内存memory和网络带宽shuffle的消耗。
王知无-import_bigdata
2020-04-02
1.2K
0
数据算法之反转排序 | 寻找相邻单词的数量
spark
scala
sql
mapreduce
想处理的问题是:统计一个单词相邻前后两位的数量,如有w1,w2,w3,w4,w5,w6,则:
王知无-import_bigdata
2020-02-10
452
0
这个面试问题很难么 | 如何处理大数据中的数据倾斜
spark
linux
mapreduce
hadoop
大数据
数据倾斜是我们在处理大数据量问题时绕不过去的问题,也是在面试中几乎必问的考点。 正常的数据分布理论上都是倾斜的,就是我们所说的'二八原理':80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。 简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。
王知无-import_bigdata
2019-11-18
1.1K
0
面试系列:十个海量数据处理方法大总结
mapreduce
数据库
大数据
sql
存储
本文将简单总结下一些处理海量数据问题的常见方法。当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎讨论。
王知无-import_bigdata
2019-07-09
1.3K
0
Hive/HiveSQL常用优化方法全面总结
hive
mapreduce
sql
javascript
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化,也包含Hive配置项和MR方面的调整。
王知无-import_bigdata
2019-07-01
22.3K
0
HBase和Hive的区别和各自适用的场景
hive
hadoop
hbase
mapreduce
TDSQL MySQL 版
先放结论:Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。
王知无-import_bigdata
2019-05-13
7.4K
1
面试必备技能-HiveSQL优化
hive
mapreduce
大数据
文件存储
Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关。
王知无-import_bigdata
2019-05-09
1.3K
0
Hadoop极简入门
hadoop
mapreduce
node.js
分布式
存储
其实Hadoop诞生至今已经十多年了,网络上也充斥着关于Hadoop相关知识的的海量资源。但是,有时还是会使刚刚接触大数据领域的童鞋分不清hadoop、hdfs、Yarn和MapReduce等等技术词汇。
王知无-import_bigdata
2019-04-24
714
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档