腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
SmartSi
专栏成员
举报
270
文章
618176
阅读量
53
订阅数
订阅专栏
申请加入专栏
全部文章(270)
大数据(82)
编程算法(63)
java(45)
spark(36)
api(33)
scala(32)
sql(29)
文件存储(29)
存储(26)
flink(26)
unix(25)
mapreduce(25)
kafka(25)
hive(24)
数据库(23)
hadoop(22)
apache(19)
zookeeper(19)
windows(16)
node.js(14)
python(13)
缓存(13)
Elasticsearch Service(13)
分布式(12)
TDSQL MySQL 版(11)
网站(11)
http(11)
hbase(11)
数据处理(10)
数据结构(10)
javascript(9)
云数据库 Redis(9)
云数据库 SQL Server(7)
html(6)
json(6)
jar(6)
容器(6)
shell(6)
jvm(6)
https(6)
打包(5)
maven(5)
jdbc(5)
bash(4)
xml(4)
analyzer(4)
yarn(4)
tcp/ip(4)
socket编程(4)
linux(3)
bash 指令(3)
容器镜像服务(3)
网络安全(3)
jdk(3)
ssh(3)
正则表达式(3)
hexo(3)
php(2)
css(2)
oracle(2)
github(2)
lucene/solr(2)
ubuntu(2)
腾讯云测试服务(2)
serverless(2)
kubernetes(2)
数据分析(2)
processing(2)
ios(1)
mac os(1)
regex(1)
postgresql(1)
ruby on rails(1)
git(1)
全文检索(1)
批量计算(1)
日志服务(1)
访问管理(1)
消息队列 CMQ 版(1)
数据加密服务(1)
云推荐引擎(1)
mongodb(1)
企业(1)
vr 视频解决方案(1)
rollup.js(1)
开源(1)
压力测试(1)
numpy(1)
sql server(1)
面向对象编程(1)
npm(1)
单元测试(1)
rpc(1)
uml(1)
云计算(1)
任务调度(1)
utf8(1)
raft(1)
数据湖(1)
elasticsearch(1)
fetch(1)
get(1)
iterable(1)
join(1)
key(1)
search(1)
size(1)
storm(1)
task(1)
worker(1)
yaml(1)
搜索(1)
索引(1)
搜索文章
搜索
搜索
关闭
Presto 安装与部署
node.js
hive
jvm
日志服务
Presto 在访问 Hive 中的数据时需要得到 Hive 中的所有元数据信息,因此需要部署一个 HiveMetaStore 服务提供 Hive 的元数据信息。
smartsi
2020-02-25
3K
1
Hadoop 大量小文件问题的优化
大数据
hadoop
mapreduce
jvm
存储
小文件是指文件大小明显小于 HDFS 上块(block)大小(默认64MB,在Hadoop2.x中默认为128MB)的文件。如果存储小文件,必定会有大量这样的小文件,否则你也不会使用 Hadoop,这样的文件给 Hadoop 的扩展性和性能带来严重问题。当一个文件的大小小于 HDFS 的块大小(默认64MB)就认定为小文件,否则就是大文件。为了检测输入文件的大小,可以浏览Hadoop DFS 主页 ,并点击 Browse filesystem(浏览文件系统)。
smartsi
2019-08-08
4.5K
0
Spark内部原理之内存管理
spark
文件存储
存储
jvm
缓存
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念。
smartsi
2019-08-07
736
0
Flink 内部原理之分布式运行环境
jvm
编程算法
api
大数据
在分布式运行中,Flink将算子(operator) SubTask 连接成 Task。每个 Task 都只由一个线程执行。将算子链接到 Task 是一个很有用处的优化:它降低了线程间切换和缓冲的开销,并增加了整体吞吐量,同时降低了延迟。链接行为可以在API中配置。
smartsi
2019-08-07
1.6K
0
Hadoop 任务运行失败
jvm
mapreduce
任务运行失败最常见的情况是 map 任务或 reduce 任务中的用户代码抛出运行异常。如果发生这种情况,任务 JVM 会在退出之前向其父 application master 发送错误报错。错误报告最后被记入用户日志中。application master 会将此次任务尝试标记为 failed (失败),并释放容器以便资源可以为其他任务使用。
smartsi
2019-08-07
2.9K
0
Hadoop 脱离JVM? Hadoop生态圈的挣扎与演化
文件存储
java
spark
jvm
hadoop
新世纪以来,互联网及个人终端的普及,传统行业的信息化及物联网的发展等产业变化产生了大量的数据,远远超出了单台机器能够处理的范围,分布式存储与处理成为唯一的选项。从2005年开始,Hadoop从最初Nutch项目的一部分,逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目,围绕着大数据的存储,计算,分析,展示,安全等各个方面,构建了一个完整的大数据生态系统,并有Cloudera,HortonWorks,MapR等数十家公司基于开源的Hadoop平台构建自己的商业模式,可以认为是最近十年来最成功的开源社区。
smartsi
2019-08-07
812
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档