首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
810
文章
1222195
阅读量
247
订阅数
爱奇艺数据中台建设方案
数据中台更像一种企业架构,是一套结合互联网技术和行业特性,在企业发展的不确定性中,寻找确定性,并且持续沉淀和抽象企业核心能力,最终支持企业快速、高效、低成本进行业务创新和增强的企业架构。
Spark学习技巧
2022-01-12
4650
HBase运维:如何逆向修复HBase元数据表
最近知识星球有人问浪尖,自己的hbase集群元数据丢失了,但是数据还在,是否能够修复,其实这种情况下利用数据的hfile去修复元数据很常见,也有很多时候我们是生成hfile加载进hbase。
Spark学习技巧
2021-03-05
2.9K0
爱奇艺在日志实时数据监控的探索与实践
2019年6月爱奇艺会员规模突破1亿,爱奇艺的会员服务业务随之迅速增长,同时也带来了机器集群规模的增加,原有的监控体系也暴露出一些问题。数据监控体系是业务维持稳定服务的基石,会员日志监控体系形成闭环,从网络、应用、异常、页面加载多维度监控,极大提高了系统的成功率、稳定性,对会员视频播放、营销、下单等核心功能增强异常感知。
Spark学习技巧
2021-03-05
1.1K0
Clickhouse的实践之路
在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具体案例说明Clickhouse的实践过程。
Spark学习技巧
2021-03-05
1.6K1
基于Canal与Flink实现数据实时增量同步(一)
canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。
Spark学习技巧
2020-09-08
2.3K0
实施数据治理项目是数据中心建设的关键,数字化转型的基础
企业数字化转型趋势是“数据”引领业务变革,数据集中管控成为大势所趋,如何做好数据共享和数据分析、如何发挥数据资产价值最大化是我们信息化工作首要目标,本文从基本术语及概念、数据共享服务、数据资源中心架构、数据治理平台、数据运营体系等10核心观点来阐述,实施企业级数据治理项目是数据资源中心建设的关键,是企业数字化转型和发展的基础。
Spark学习技巧
2019-10-24
9580
中间件运维分析中的选型与实践
在近期的 Kylin Data Summit 上,好买财富平台架构总监王晔倞在互联网专场上分享了好买财富在中间件运维分析平台的演进过程。好买财富为什么选择从广泛应用的 ELK 转向 Apache Kylin 呢?
Spark学习技巧
2019-09-08
7880
埋在 MYSQL 数据库应用的关键问题!
Mysql的使用非常普遍,跟mysql有关的话题也非常多,如性能优化、高可用性、强一致性、安全、备份、集群、横向扩展、纵向扩展、负载均衡、读写分离等。要想掌握其中的精髓,可得花费不少功力,虽然目前流行的mysql替代方案有很多,可是从最小成本最容易维护的角度而言,mysql还是首选。下面从应用场景的角度切入,对mysql的技术点进行组织,写一份知识图谱,方便进行更深入的学习和总结。
Spark学习技巧
2018-12-24
5090
HBase最佳实践-读性能优化策略
就职于网易杭州研究院后台技术中心数据库技术组,从事HBase开发、运维,对HBase相关技术有浓厚的兴趣。
Spark学习技巧
2018-08-20
2.5K0
云HBase小组成功抢救某公司自建HBase集群,挽救30+T数据
云栖君导读: 使用过开源HBase的人都知道,运维HBase是多么复杂的事情,集群大的时候,读写压力大,配置稍微不合理一点,就可能会出现集群状态不一致的情况,糟糕一点的直接导致入库、查询某个业务表不可用, 甚至集群运行不了。在早期0.9x版本的时候,HBase的修复工具还有一下bug,使得即使你懂得如何修复的情况下,依然需要多次重复运行命令,绕过那些不合理的修复逻辑,甚至有时候需要自己写代码预先修复某个步骤。 背景 上周五,某公司使用的某DataHup 大数据产品自建一个HBase集群挂了!整个集群有30+
Spark学习技巧
2018-06-22
8890
HBase高可用集群运维实践
随着越来越多的业务选择HBase作为存储引擎,对HBase的可用性要求也越来越高,对于HBase的运维也提出了新的挑战。目前运维集群超过30+,而且接入的业务类型繁多,对于性能要求也不完全一样,这是今年面临的问题。从15年开始,结合京东的业务情况,基于大数据平台,实现用户接入使用全流程自动化。而今年,我们主要从集群层面上提升集群可用性。 1 控制隔离——rsgroup 在94版本中,经常困扰我们的一个问题就是集群上的某些机器会因为某些用户的不恰当操作,例如热点问题,大量的scan操作等导致机器上的其他表正常
Spark学习技巧
2018-03-20
1.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档