首页
学习
活动
专区
工具
TVP
发布

大数据-Hadoop、Spark

专栏成员
88
文章
145460
阅读量
39
订阅数
Spark on K8S
Spark Standalone on Kubernetes (via k8s community) SPIP: SPARK-18278 https://github.com/apache-spark-on-k8s/spark (fork)
sparkle123
2021-01-26
6240
FsImage Analyse Tool
该工具提供自动化解析HDFS集群FSImage文件,并解析成文本文件存储在HDFS中;解析后的信息通过Hive映射成表,并通过Hive进行相关信息统计,使用有数生成相关报表。
sparkle123
2021-01-08
8941
ReadProcessor read fields took xx ms
cd /opt/log/xdp/hadoop-hdfs/hdfs_datanode
sparkle123
2021-01-08
9810
HBase HDFS的一次升级问题
升级core-2过程中,高风险节点core-5(内存水位解决临界值)发生宕机,造成业务写入抛错, core-5宕机恢复流程完成,hbase服务恢复,Flink任务Failover后自动消费积压的kafka数据。
sparkle123
2020-10-29
5450
Presto Hive连接器
Presto仅使用前两个组件:数据和元数据。它不使用HiveQL或Hive执行环境的任何一部分。
sparkle123
2020-10-29
2.1K0
Flink SQL 写入 Hive表的性能问题
翻阅Flink的PR,十几天前,阿里Flink的开发同学已经注意到了这个问题,我们将之吸收到测试环境,编译替换lib下jar包,重新测试,性能确实up了,单并发升至5W每秒,上游节点才稍微有背压。 [FLINK-19121][hive] Avoid accessing HDFS frequently in HiveBulkWriterFactory
sparkle123
2020-09-28
3.2K0
HBase基准测试
su hdfs ./hbase org.apache.hadoop.hbase.PerformanceEvaluation sequentialWrite 1
sparkle123
2020-09-03
1.3K0
HBase豆知识
与Phoenix带来的SQL on HBase易用性相比,它带来的负面影响也是巨大的, 大表Join大表,或者全表OrderBy等消耗的资源随数据量呈至少线性增长, 并发直线下降,甚至低到只有百级别,扩容带来的收益下降很快。 另外,Phoenix表查询通过多个独立协调器(Query Server),互相不管对方, 玩命占用HBase资源,在高并发的大查询下就会容易造成HBase整个集群过载。 而像Presto系统所有的请求都是走同一个协调器,可以总控资源使用,优雅的处理过载。 让现有HBase集群聚焦在线KV Store,聚焦作为在线业务的温存储层。
sparkle123
2020-08-17
6750
头条大数据实践
一、 除了日志数据,关系数据库中的数据也是数据分析的重要来源。在数据的采集方式上,用Spark实现类 Sqoop 的分布式抓取替代了早期定期用单机全量抓取 MySQL 数据表的方式,有效的提升了抓取速度,突破了单机瓶颈。
sparkle123
2018-12-06
6850
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档