腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
最新最全的大数据技术体系
专栏作者
举报
717
文章
542204
阅读量
33
订阅数
订阅专栏
申请加入专栏
全部文章(717)
大数据(215)
sql(121)
编程算法(110)
数据库(108)
数据(78)
java(70)
spark(68)
hive(66)
node.js(65)
kafka(51)
hadoop(48)
python(47)
存储(42)
hbase(39)
云数据库 SQL Server(32)
TDSQL MySQL 版(30)
物联网(27)
flink(27)
api(26)
mapreduce(25)
网络安全(25)
linux(24)
网站(24)
数据分析(24)
https(23)
模型(23)
文件存储(22)
apache(21)
yarn(21)
服务(21)
分布式(20)
ide(19)
数据结构(19)
javascript(18)
scala(17)
xml(17)
spring(17)
windows(15)
函数(15)
html(14)
腾讯云测试服务(14)
jar(13)
maven(13)
http(13)
容器(13)
缓存(13)
tcp/ip(13)
数据处理(13)
设计(13)
机器学习(12)
vue.js(12)
基础(12)
配置(12)
语法(11)
bash(10)
容器镜像服务(10)
数据湖(10)
进程(10)
可视化(10)
统计(10)
json(9)
nosql(9)
打包(9)
微服务(9)
pyspark(9)
oracle(8)
shell(8)
面向对象编程(8)
腾讯云开发者社区(8)
tomcat(7)
nginx(7)
消息队列 CMQ 版(7)
yum(7)
jdbc(7)
zookeeper(7)
gpt(7)
编码(7)
博客(7)
公众号(7)
php(6)
bash 指令(6)
推荐系统(6)
微信(6)
云计算(6)
bi(6)
flume(6)
table(6)
测试(6)
工程师(6)
内存(6)
算法(6)
数据接口(6)
对象存储(5)
c++(5)
jsp(5)
unix(5)
人工智能(5)
电商(5)
jdk(5)
mybatis(5)
数据可视化(5)
虚拟化(5)
es(5)
error(5)
openai(5)
工具(5)
全栈(5)
视频(5)
索引(5)
腾讯(5)
系统(5)
原理(5)
字符串(5)
ajax(4)
云数据库 Redis(4)
mvc(4)
git(4)
github(4)
全文检索(4)
深度学习(4)
专用宿主机(4)
访问管理(4)
日志数据(4)
企业(4)
数据安全(4)
hashmap(4)
aop(4)
mysql(4)
部署(4)
服务器(4)
集群(4)
教程(4)
解决方案(4)
入门(4)
事务(4)
线程(4)
AI绘画(4)
其他(3)
servlet(3)
jquery(3)
access(3)
搜索引擎(3)
lucene/solr(3)
神经网络(3)
日志服务(3)
jvm(3)
正则表达式(3)
rpc(3)
sdn(3)
airflow(3)
exception(3)
join(3)
mq(3)
nested(3)
redis(3)
set(3)
shuffle(3)
编程(3)
插件(3)
产品(3)
程序(3)
工作(3)
接口(3)
开发(3)
开发者(3)
连接(3)
排序(3)
同步(3)
需求分析(3)
优化(3)
负载均衡(2)
NLP 服务(2)
自动驾驶(2)
c#(2)
regex(2)
react(2)
css(2)
负载均衡缓存(2)
批量计算(2)
mongodb(2)
serverless(2)
parcel(2)
游戏(2)
开源(2)
自动化(2)
运维(2)
ssh(2)
监督学习(2)
rabbitmq(2)
kernel(2)
spring cloud(2)
安全(2)
机器人(2)
系统架构(2)
mvcc(2)
ascii(2)
sdk(2)
迁移(2)
实时etl(2)
数据库管理(2)
app(2)
break(2)
bug(2)
char(2)
connect(2)
connection(2)
csv(2)
for循环(2)
gateway(2)
host(2)
list(2)
map(2)
null(2)
pandas(2)
pip(2)
process(2)
prompt(2)
pycharm(2)
rdd(2)
select(2)
server(2)
service(2)
truncate(2)
version(2)
video(2)
view(2)
word(2)
百度(2)
变量(2)
编译(2)
对象(2)
多线程(2)
集合(2)
架构(2)
镜像(2)
框架(2)
日志(2)
软件(2)
实践(2)
数据存储(2)
数据类型(2)
图表(2)
微信公众号(2)
性能(2)
异步(2)
源码(2)
费用中心(1)
云服务器(1)
内容分发网络 CDN(1)
ruby(1)
bootstrap(1)
ecmascript(1)
android(1)
eclipse(1)
centos(1)
容器服务(1)
云直播(1)
命令行工具(1)
云推荐引擎(1)
DevOps 解决方案(1)
数据备份(1)
o2o(1)
渲染(1)
vr 视频解决方案(1)
express(1)
kubernetes(1)
压力测试(1)
数据迁移(1)
无人驾驶(1)
wordpress(1)
强化学习(1)
spring boot(1)
线性回归(1)
seo(1)
二叉树(1)
dubbo(1)
jenkins(1)
gradle(1)
scikit-learn(1)
socket编程(1)
lamp(1)
ntp(1)
小程序(1)
网站建设(1)
nat(1)
processing(1)
信息流(1)
任务调度(1)
聚类算法(1)
实时监控(1)
Elasticsearch Service(1)
数据集成(1)
大数据存储(1)
汽车(1)
教育(1)
腾讯云(1)
alias(1)
alpha(1)
amqp(1)
async(1)
backend(1)
between(1)
chatgpt(1)
classnotfoundexception(1)
clickhouse(1)
cloud(1)
cloudera(1)
code(1)
conda(1)
config(1)
core(1)
count(1)
cpu(1)
data(1)
date(1)
default(1)
dll(1)
drawing(1)
ear(1)
echarts(1)
edge(1)
equals(1)
excel(1)
exec(1)
execution(1)
export(1)
field(1)
fifo(1)
function(1)
geo(1)
having(1)
hdfs(1)
hibernate(1)
ibatis(1)
import(1)
insert(1)
int(1)
io(1)
it(1)
jetbrains(1)
jetty(1)
key(1)
matplotlib(1)
model(1)
monitor(1)
partition(1)
path(1)
port(1)
prometheus(1)
ps(1)
regexp(1)
reset(1)
rows(1)
runtimeexception(1)
socket(1)
sqoop(1)
ssl(1)
substr(1)
sys(1)
tampermonkey(1)
target(1)
this(1)
thread(1)
time(1)
timeout(1)
token(1)
txt(1)
types(1)
unique(1)
vim(1)
window(1)
worker(1)
zero(1)
报表(1)
备份(1)
并发(1)
产品经理(1)
程序员(1)
磁盘(1)
代理(1)
登录(1)
递归(1)
地图(1)
队列(1)
多进程(1)
二维码(1)
翻译(1)
分页(1)
高可用(1)
工具类(1)
行业(1)
华为(1)
技巧(1)
监控(1)
脚本(1)
客户端(1)
流量(1)
论文(1)
内核(1)
配色(1)
权限(1)
事件(1)
实时计算(1)
手机(1)
数据仓库(1)
数据同步(1)
数学(1)
数组(1)
搜索(1)
推送(1)
网关(1)
效率(1)
性能监控(1)
虚拟机(1)
异常(1)
域名(1)
在线教育(1)
主机(1)
LLM(1)
搜索文章
搜索
搜索
关闭
助力工业物联网,工业大数据项目之数据采集
yarn
node.js
数据库
sql
oracle
问题1:程序已提交YARN,但是无法运行,报错:Application is added to the scheduler and is not activated. User’s AM resource limit exceeded.
Maynor
2023-02-03
495
0
工作常用之Yarn详解【五】资源调度与隔离
yarn
node.js
访问管理
hadoop
在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。
Maynor
2022-12-02
1.2K
0
工作常用之Spark调优【二】资源调优
spark
yarn
node.js
文件存储
jar
先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节
Maynor
2022-11-28
483
0
工作常用之Spark调优【一】
jar
spark
sql
yarn
数据库
Spark 3.0 大版本发布, Spark SQL 的优化占比将近 50% 。 Spark SQL 取代 Spark Core ,成
Maynor
2022-11-28
348
0
工作常用之Spark调优[二】资源调优
spark
linux
yarn
node.js
文件存储
先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节
Maynor
2022-09-27
654
0
工作常用之Spark调优一】
spark
linux
sql
jar
yarn
Spark 3.0 大版本发布, Spark SQL 的优化占比将近 50% 。 Spark SQL 取代 Spark Core ,成
Maynor
2022-09-27
429
0
【Spark】 Spark的基础环境 Day03
yarn
node.js
spark
当Spark Application运行到YARN上时,在提交应用时指定master为yarn即可,同时需要告知YARN集群配置信息(比如ResourceManager地址信息),此外需要监控Spark Application,配置历史服务器相关属性。
Maynor
2022-05-08
438
0
❤️hadoop常用命令总结及百万调优❤️
hadoop
大数据
mapreduce
yarn
bash
以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)
Maynor
2022-05-08
294
0
Spark_Day01:Spark 框架概述和Spark 快速入门
spark
虚拟化
hadoop
yarn
node.js
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]
Maynor
2022-05-08
569
0
一图胜千言:大数据入门必备的16张数据流转图(建议收藏)
大数据
hbase
TDSQL MySQL 版
yarn
spark
以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~
Maynor
2022-05-08
3.1K
0
hadoop常用命令总结及百万调优
hadoop
大数据
mapreduce
yarn
bash
以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)
Maynor
2021-12-07
303
0
Note_Spark_Day01:Spark 框架概述和Spark 快速入门
spark
hadoop
yarn
node.js
虚拟化
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]
Maynor
2021-12-07
774
0
Note_Spark_Day01:Spark 基础环境
spark
hadoop
yarn
node.js
虚拟化
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Rk9bK5g-1625406507847)(/img/image-20210419160056620.png)]
Maynor
2021-12-07
577
0
【Spark】 Spark的基础环境 Day02
yarn
node.js
spark
当Spark Application运行到YARN上时,在提交应用时指定master为yarn即可,同时需要告知YARN集群配置信息(比如ResourceManager地址信息),此外需要监控Spark Application,配置历史服务器相关属性。
Maynor
2021-12-07
311
0
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day26】——Spark13
spark
mapreduce
yarn
node.js
编程算法
5)计算各分区时优先的位置列表(可选),比如从HDFS上的文件生成RDD时,RDD分区的位置优先选择数据所在的节点,这样可以避免数据移动带来的开销。
Maynor
2021-12-07
207
0
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day21】——Spark8
linux
javascript
yarn
node.js
1)运行ApplicationMaster的Container:这是由ResourceManager(向内部的资源调度器)申请和启动的,用户提交应用程序时, 可指定唯一的ApplicationMaster所需的资源; 2)运行各类任务的Container:这是由ApplicationMaster向ResourceManager申请的,并由ApplicationMaster与NodeManager通信以启动之。
Maynor
2021-12-07
182
0
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day20】——Spark7
文件存储
spark
yarn
node.js
hadoop
可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。 配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。
Maynor
2021-12-07
167
0
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day14】——Spark1
yarn
node.js
spark
mapreduce
为什么要进行持久化? spark所有复杂一点的算法都会有persist身影,spark默认数据放在内存,spark很多内容都是放在内存的,非常适合高速迭代,1000个步骤只有第一个输入数据,中间不产生临时数据,但分布式系统风险很高,所以容易出错,就要容错,rdd出错或者分片可以根据血统算出来,如果没有对父rdd进行persist 或者cache优化,就需要重头做。 以下场景会使用persist 1)某个步骤计算非常耗时,需要进行persist持久化 2)计算链条非常长,重新恢复要算很多步骤,很好使,persist 3)checkpoint所在的rdd要持久化persist。checkpoint前,要持久化,写个rdd.cache或者rdd.persist,将结果保存起来,再写checkpoint操作,这样执行起来会非常快,不需要重新计算rdd链条了。checkpoint之前一定会进行persist。 4)shuffle之后要persist,shuffle要进性网络传输,风险很大,数据丢失重来,恢复代价很大 5)shuffle之前进行persist,框架默认将数据持久化到磁盘,这个是框架自动做的。
Maynor
2021-12-07
211
0
一道Spark练习题
spark
yarn
node.js
涉及的知识点 (1)Local:运行在一台机器上,通常是练手或者测试环境。 (2)Standalone:构建一个基于 Master+Slaves 的资源调度集群,Spark 任务提交给 Master 运行。是 Spark 自身的一个调度系统。 (3)Yarn: Spark 客户端直接连接 Yarn, 不需要额外构建 Spark 集群。有 yarn-client 和 yarn-cluster 两种模式,主要区别在于:Driver 程序的运行节点。 (4)Mesos:国内大环境比较少用
Maynor
2021-12-07
150
0
一图胜千言:大数据入门必备的15张数据流转图(建议收藏)
hbase
yarn
TDSQL MySQL 版
node.js
spark
以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~
Maynor
2021-07-01
907
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档