腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
最新最全的大数据技术体系
专栏作者
举报
717
文章
538357
阅读量
33
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
sql
编程算法
数据库
数据
java
spark
hive
node.js
kafka
hadoop
python
存储
hbase
云数据库 SQL Server
TDSQL MySQL 版
物联网
flink
api
mapreduce
网络安全
linux
网站
数据分析
https
模型
文件存储
apache
yarn
服务
分布式
ide
数据结构
javascript
scala
xml
spring
windows
函数
html
腾讯云测试服务
jar
maven
http
容器
缓存
tcp/ip
数据处理
设计
机器学习
vue.js
基础
配置
语法
bash
容器镜像服务
数据湖
进程
可视化
统计
json
nosql
打包
微服务
pyspark
oracle
shell
面向对象编程
腾讯云开发者社区
tomcat
nginx
消息队列 CMQ 版
yum
jdbc
zookeeper
gpt
编码
博客
公众号
php
bash 指令
推荐系统
微信
云计算
bi
flume
table
测试
工程师
内存
算法
数据接口
对象存储
c++
jsp
unix
人工智能
电商
jdk
mybatis
数据可视化
虚拟化
es
error
openai
工具
全栈
视频
索引
腾讯
系统
原理
字符串
ajax
云数据库 Redis
mvc
git
github
全文检索
深度学习
专用宿主机
访问管理
日志数据
企业
数据安全
hashmap
aop
mysql
部署
服务器
集群
教程
解决方案
入门
事务
线程
AI绘画
其他
servlet
jquery
access
搜索引擎
lucene/solr
神经网络
日志服务
jvm
正则表达式
rpc
sdn
airflow
exception
join
mq
nested
redis
set
shuffle
编程
插件
产品
程序
工作
接口
开发
开发者
连接
排序
同步
需求分析
优化
负载均衡
NLP 服务
自动驾驶
c#
regex
react
css
负载均衡缓存
批量计算
mongodb
serverless
parcel
游戏
开源
自动化
运维
ssh
监督学习
rabbitmq
kernel
spring cloud
安全
机器人
系统架构
mvcc
ascii
sdk
迁移
实时etl
数据库管理
app
break
bug
char
connect
connection
csv
for循环
gateway
host
list
map
null
pandas
pip
process
prompt
pycharm
rdd
select
server
service
truncate
version
video
view
word
百度
变量
编译
对象
多线程
集合
架构
镜像
框架
日志
软件
实践
数据存储
数据类型
图表
微信公众号
性能
异步
源码
费用中心
云服务器
内容分发网络 CDN
ruby
bootstrap
ecmascript
android
eclipse
centos
容器服务
云直播
命令行工具
云推荐引擎
DevOps 解决方案
数据备份
o2o
渲染
vr 视频解决方案
express
kubernetes
压力测试
数据迁移
无人驾驶
wordpress
强化学习
spring boot
线性回归
seo
二叉树
dubbo
jenkins
gradle
scikit-learn
socket编程
lamp
ntp
小程序
网站建设
nat
processing
信息流
任务调度
聚类算法
实时监控
Elasticsearch Service
数据集成
大数据存储
汽车
教育
腾讯云
alias
alpha
amqp
async
backend
between
chatgpt
classnotfoundexception
clickhouse
cloud
cloudera
code
conda
config
core
count
cpu
data
date
default
dll
drawing
ear
echarts
edge
equals
excel
exec
execution
export
field
fifo
function
geo
having
hdfs
hibernate
ibatis
import
insert
int
io
it
jetbrains
jetty
key
matplotlib
model
monitor
partition
path
port
prometheus
ps
regexp
reset
rows
runtimeexception
socket
sqoop
ssl
substr
sys
tampermonkey
target
this
thread
time
timeout
token
txt
types
unique
vim
window
worker
zero
报表
备份
并发
产品经理
程序员
磁盘
代理
登录
递归
地图
队列
多进程
二维码
翻译
分页
高可用
工具类
行业
华为
技巧
监控
脚本
客户端
流量
论文
内核
配色
权限
事件
实时计算
手机
数据仓库
数据同步
数学
数组
搜索
推送
网关
效率
性能监控
虚拟机
异常
域名
在线教育
主机
LLM
搜索文章
搜索
搜索
关闭
2022年Hadoop面试题最全整理,两万字干货分享【建议收藏】
数据安全
大数据
hadoop
文件存储
Hadoop 中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。
Maynor
2023-02-01
717
0
工作常用之Spark调优【二】资源调优
spark
yarn
node.js
文件存储
jar
先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节
Maynor
2022-11-28
481
0
工作常用之Spark调优[二】资源调优
spark
linux
yarn
node.js
文件存储
先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节
Maynor
2022-09-27
652
0
实时即未来,车联网项目之将数据落地到文件系统和数据库【三】
hive
文件存储
编程算法
数据库
sql
azkaban airflow dolphinscheduler oozie 自研
Maynor
2022-09-27
430
0
Hive的基本知识(一)
存储
hive
hadoop
文件存储
jdbc
💃 Hive架构 📷 💃Hive 组件 用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行; Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是 通过浏览器访问Hive。 元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 Dri
Maynor
2022-05-08
359
0
今日指数项目之Apache Avro介绍【五】
json
编程算法
文件存储
大数据
打包
在企业级大数据流处理项目中,往往在项目数据源处需要面临实时海量数据的采集。采集数据的性能一般与网络带宽、机器硬件、数据量等因素有直接关系;当其他因素是固定的,这里我们只考虑数据量的话,那么数据量的传输和存储性能是我们首先需要面对和解决的。 由此我们引入了Avro数据序列化框架,来解决数据的传输性能问题。
Maynor
2022-04-11
677
0
Hive的基本知识(一)
存储
hive
hadoop
文件存储
jdbc
Hive 组件 用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行; Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是 通过浏览器访问Hive。 元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 Driver驱动程序,包括语法解析器、计划编译器、优化器、执行器 : 完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有执行引擎调用执行。 执行引擎:Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、 Tez、Spark3种执行引擎。 Hive基本使用 链接方式: 1.使用hive本地连接 2.开启hiveserver2远程服务,使用beeline连接 3.使用hive参数执行任务 hive -e ‘执行语句’ hive -f ‘执行脚本文件’
Maynor
2021-12-07
362
0
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day07】——Hbase1
hbase
TDSQL MySQL 版
分布式
文件存储
存储
•功能:Hbase是一个分布式的、基于分布式内存和HDFS的按列存储的NoSQL数据库 •应用:Hbase适合于需要实时的对大量数据进行快速、随机读写访问的场景
Maynor
2021-12-07
206
0
大数据开发工程师基本功修炼之Linux学习笔记(二)
ide
文件存储
在没有图形界面的环境下, 要编辑文件, vi是最佳选择 每一个使用linux的程序员,都应该或多或少的学习一些vi的常用命令
Maynor
2021-12-07
409
0
回答粉丝疑问:Spark为什么调优需要降低过多小任务,降低单条记录的资源开销?
数据库
sql
文件存储
分布式
filter操作使用不当,很容易引发麻烦。假如一个任务有3个parition,经过filger过滤之后,可能导致部分剩下很少,有些剩余很多,剩余很多的在下一步计算量很大,会拖后腿,其他的作业很快就做完了,而剩余很多的要执行很长时间,整个任务都要延误,而其他很快执行完的作业早就释放资源了 造成资源还的浪费
Maynor
2021-12-07
116
0
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day25】——Spark12
文件存储
spark
mapreduce
tcp/ip
1)原理: 计算能力调度器支持多个队列,每个队列可配置一定的资源量,每个队列采用 FIFO 调度策略,为了防止同一个用户的作业独占队列中的资源,该调度器会对 同一用户提交的作业所占资源量进行限定。调度时,首先按以下策略选择一个合适队列:计算每个队列中正在运行的任务数与其应该分得的计算资源之间的 比值(即比较空闲的队列),选择一个该比值最小的队列;然后按以下策略选择该队列中一个作业:按照作业优先级和提交时间顺序选择, 同时考虑用户资源量限制和内存限制 2)优点: (1)计算能力保证。支持多个队列,某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源,且所有提交到队列中的作业 共享该队列中的资源; (2)灵活性。空闲资源会被分配给那些未达到资源使用上限的队列,当某个未达到资源的队列需要资源时,一旦出现空闲资源资源,便会分配给他们; (3)支持优先级。队列支持作业优先级调度(默认是FIFO); (4)多重租赁。综合考虑多种约束防止单个作业、用户或者队列独占队列或者集群中的资源; (5)基于资源的调度。支持资源密集型作业,允许作业使用的资源量高于默认值,进而可容纳不同资源需求的作业。不过,当前仅支持内存资源的调度。
Maynor
2021-12-07
200
0
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day20】——Spark7
文件存储
spark
yarn
node.js
hadoop
可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。 配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。
Maynor
2021-12-07
167
0
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day15】——Spark2
spark
sql
文件存储
大数据
1)如果说HDFS是大数据时代分布式文件系统首选标准,那么parquet则是整个大数据时代文件存储格式实时首选标准。 2)速度更快:从使用spark sql操作普通文件CSV和parquet文件速度对比上看,绝大多数情况会比使用csv等普通文件速度提升10倍左右,在一些普通文件系统无法在spark上成功运行的情况下,使用parquet很多时候可以成功运行。 3)parquet的压缩技术非常稳定出色,在spark sql中对压缩技术的处理可能无法正常的完成工作(例如会导致lost task,lost executor)但是此时如果使用parquet就可以正常的完成。 4)极大的减少磁盘I/o,通常情况下能够减少75%的存储空间,由此可以极大的减少spark sql处理数据的时候的数据输入内容,尤其是在spark1.6x中有个下推过滤器在一些情况下可以极大的减少磁盘的IO和内存的占用,(下推过滤器)。 5)spark 1.6x parquet方式极大的提升了扫描的吞吐量,极大提高了数据的查找速度spark1.6和spark1.5x相比而言,提升了大约1倍的速度,在spark1.6X中,操作parquet时候cpu也进行了极大的优化,有效的降低了cpu消耗。 6)采用parquet可以极大的优化spark的调度和执行。我们测试spark如果用parquet可以有效的减少stage的执行消耗,同时可以优化执行路径。
Maynor
2021-12-07
230
0
Java面向对象课程设计项目__文件管理器
文件存储
java
实现一个能够对文件和文件夹进行各种基本操作的文件管理 器窗口程序。 功能要求 功能较完善的文 1)新建、删除、修改、复制、粘贴文件功能 管理器 2)新建、删除、修改目录 3)具有对某个文件进行压缩打包的功能 4)要求实现多文档界面 5)要求界面美观、功能布局合理
Maynor
2021-12-06
308
0
[hadoop3.x]HDFS存储类型和存储策略(五)概述
文件存储
存储
大数据
sdn
[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS
Maynor
2021-12-06
1.3K
0
✨[hadoop3.x]新一代的存储格式Apache Arrow(四)
apache
文件存储
hadoop
spark
大数据
[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS
Maynor
2021-12-06
396
0
[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)
存储
windows
文件存储
大数据
linux
[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS
Maynor
2021-12-06
465
0
[新星计划]导师嫌我Sql写的太low?要求我重写还加了三个需求?——二战Spark电影评分数据分析
sql
spark
大数据
文件存储
python
这是我的上篇博文,当时仅是做了一个实现案例(demo级别 ),没想到居然让我押中了题,还让我稳稳的及格了(这次测试试卷难度极大,考60分都能在班上排进前10) 不过我在复盘的时候,发现自己的致命弱点:写sql的能力太菜了。。
Maynor
2021-06-11
522
0
大数据开发前置技能__Dubbox快速入门
dubbo
文件存储
http
rpc
xml
1.Dubbox简介 1.1什么是SOA架构 SOA是Service-Oriented Architecture的首字母简称,它是一种支持面向服务的架构样式。从服务、基于服务开发和服务的结果来看,面向服务是一种思考方式。其实SOA架构更多应用于互联网项目开发。 为什么互联网项目会采用SOA架构呢?随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,迫切需一个治理系统确保架构有条不紊的演进。 我们看一下开发架构的演进过程。如下图:
Maynor
2021-04-09
269
0
知行教育项目_Hive参数优化
hive
文件存储
mapreduce
python
大数据
我们知道传统的OLTP数据库一般都具有索引和表分区的功能,通过表分区能够在特定的区域检索数据,减少扫描成本,在一定程度上提高查询效率,我们还可以通过建立索引进一步提升查询效率。在Hive数仓中也有索引和分区的概念。
Maynor
2021-04-09
720
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档