腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
祝威廉
专栏作者
举报
308
文章
199590
阅读量
44
订阅数
订阅专栏
申请加入专栏
全部文章
sql
spark
其他
编程算法
python
api
大数据
机器学习
数据库
java
存储
scala
深度学习
开源
人工智能
json
分布式
html
云数据库 SQL Server
神经网络
容器
hbase
网站
http
数据处理
数据湖
容器镜像服务
yarn
运维
apache
es 2
hive
jdbc
https
kafka
对象存储
负载均衡
ide
缓存
网络安全
微信
tensorflow
jar
文件存储
TDSQL MySQL 版
推荐系统
react
node.js
xml
git
github
linux
负载均衡缓存
zookeeper
markdown
rpc
数据分析
commit
javascript
bash
云数据库 Redis
打包
nginx
bash 指令
访问管理
kubernetes
shell
jvm
sql server
数据结构
系统架构
parquet
upsert
部署
官方文档
自动驾驶
c++
php
ruby
硬件开发
maven
spring
mapreduce
mongodb
电商
企业
云数据仓库 PostgreSQL
自动化
无人驾驶
jdk
面向对象编程
线性回归
keras
cdn
安全
机器人
openapi
腾讯云开发者社区
云计算
任务调度
特征工程
sdk
es
allocation
csv
curl
join
mysql
overwrite
package
pool
rename
tar
工作
模型
数据
索引
研发
搜索文章
搜索
搜索
关闭
解决小文件问题
hbase
大数据
TDSQL MySQL 版
缓存
为了解决小文件问题,我们也是八仙过海各显神通,一般而言可能都是写个MR/Spark程序读取特定目录的数据,然后将数据重新生成N个文件。但是在以前,这种模式会有比较致命的问题,因为在生成的新文件要替换原来的文件,而替换的过程不是原子过程,所以这个时候如果正好发生读,是会影响的。其次,很多读的程序,都会缓存文件路径,因为我们重新生成了文件,文件名称也变化了,导致读的程序的缓存失效,会发生比如文件找不到等异常。对于在一个进程比较好说,做下刷新就行,但是读往往是在不同的进程实例里,这个时候通知他们也是很难的事情。再极端一点,读取这个表的程序可能是另外一个团队维护的。所以其实小文件并没有想象的那么好解决,或者说能够优雅的解决。
用户2936994
2022-07-21
468
0
MLSQL 1.3.0开发版中最新三个MPIPs--调度,资源,缓存
sql
缓存
spark
linux
api
MPIP 是新Feature提案。全称 MLSQL Project Improvement Proposals 。当然这个是学习Spark 的 SPIP,作为一个较为稳定成熟的项目,后续增加较大的功能特性会比较慎重,所以需要通过Improvement Proposals的方式来进行规范化,以后也方便回顾。
用户2936994
2019-05-10
338
0
FUSE(FileSystem in User Space) 对算法的价值
编程算法
分布式
缓存
数据处理
api
MLSQL 有一段时间致力于融合大数据平台和算法平台,实现 【同一个平台,同一个语言。】。事实上我们通过各种方式做到了,通过整合Spark ML,Spark ML周边,以及Python的支持(环境使用Conda)来完成,但是依然不够完美。为什么呢?
用户2936994
2019-04-18
938
0
数据部门起步阶段需要建立数仓么?
数据库
sql
存储
运维
缓存
之前我写了一篇关于数据中台和数仓的关系 的文章,里面理清了数仓和中台的关系。后面我了解到更通用的技术词汇去表达数据管理的两种方式: 数据联邦和数据仓储。
用户2936994
2019-03-20
641
0
HBase缓存漫谈
hbase
缓存
存储
上一次重度使用HBase已经是两年前了。HBase能够满足上面五个要求,所以用HBase作为画像体系的主要存储引擎便水到渠成。
用户2936994
2018-08-27
726
0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
点击查看
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
立即参加
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档