vivo互联网技术-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

vivo互联网技术

专栏成员

344

文章

484520

阅读量

57

订阅数

vivo 超大规模消息中间件实践之路

kafka apache 大数据 rabbitmq 负载均衡

在线业务侧主要从RocketMQ集群部署架构、平台系统架构、日常运维操作平台、监控告警一体化实践以及vivo如何通过建设AMQP消息网关的方式完成所有在线业务服务从RabbitMQ到RocketMQ的业务无感迁移，实现了在线业务消息中间件组件的统一。

2020labs小助手

2023-01-30

5060

vivo 实时计算平台建设实践

数据湖云计算大数据 flink 实时数仓

vivo 实时计算平台是 vivo 实时团队基于 Apache Flink 计算引擎自研的覆盖实时流数据接入、开发、部署、运维和运营全流程的一站式数据建设与治理平台。

2020labs小助手

2023-01-04

9800

vivo大数据日志采集Agent设计实践

unix 日志数据数据库大数据 sql

在企业大数据体系建设过程中，数据采集是其中的首要环节。然而，当前行业内的相关开源数据采集组件，并无法满足企业大规模数据采集的需求与有效的数据采集治理，所以大部分企业都采用自研开发采集组件的方式。本文通过在vivo的日志采集服务的设计实践经验，为大家提供日志采集Agent在设计开发过程中的关键设计思路。

2020labs小助手

2022-11-28

6240

vivo 霍金实验平台设计与实践-平台产品系列02

sdk ide html5 大数据数据分析

本篇介绍了vivo霍金实验平台的系统架构以及业务发展过程中遇到的问题以及对应的解决方案。

2020labs小助手

2022-11-21

7761

如何实现一个SQL解析器

sql 数据库云数据库 SQL Server 大数据编程算法

随着技术的不断的发展，在大数据领域出现了越来越多的技术框架。而为了降低大数据的学习成本和难度，越来越多的大数据技术和应用开始支持SQL进行数据查询。SQL作为一个学习成本很低的语言，支持SQL进行数据查询可以降低用户使用大数据的门槛，让更多的用户能够使用大数据。

2020labs小助手

2022-10-24

2.5K0

实时营销引擎在vivo营销自动化中的实践 | 引擎篇04

自动化数据处理大数据

本文是《vivo营销自动化技术解密》的第5篇文章，重点分析介绍在营销自动化业务中实时营销场景的背景价值、实时营销引擎架构以及项目开发过程中如何利用动态队列做好业务流量隔离，动态发布，使用规则引擎来提升营销规则的配置效率等几种关键技术设计实践。

2020labs小助手

2022-10-14

1.5K0

Kafka 负载均衡在 vivo 的落地实践

大数据 kafka 负载均衡

Kafka 客户端可以使用分区器依据消息的key计算分区，如果在发送消息时未指定key，则默认分区器会基于round robin算法为每条消息分配分区；

2020labs小助手

2022-06-06

8060

理“ Druid 元数据”之乱

apache 大数据数据挖掘

Druid 是一个专为大型数据集上的高性能切片和 OLAP 分析而设计的数据存储系统。

2020labs小助手

2022-05-30

6640

Kafka 万亿级消息实践之资源组流量掉零故障排查分析

大数据 kafka

为了让读者能与小编在后续的问题分析中有更好的共鸣，小编先与各位读者朋友对齐一下我们 Kafka 集群的部署架构及服务接入 Kafka 集群的流程。

2020labs小助手

2022-05-23

3890

vivo 万台规模 HDFS 集群升级 HDFS 3.x 实践

hadoop 大数据

Hadoop 3.x的第一个稳定版本在2017年底就已经发布了，有很多重大的改进。

2020labs小助手

2022-05-16

1.1K0

用户行为分析模型实践（二）—— 漏斗分析模型

大数据数据分析云数据仓库 ClickHouse

在《用户行为分析模型实践（一）—— 路径分析模型》中，讲述了基于平台化查询中查询时间短、需要可视化的要求，并结合现有的存储计算资源以及具体需求，我们在实现中将路径数据进行枚举后分为两次进行合并。

2020labs小助手

2022-05-06

1.5K0

FastDFS 海量小文件存储解决之道

大数据分布式文件存储

支持 Linux、FreeBSD、AID 等Unix系统，解决了大容量的文件存储和高并发访问问题，文件存取实现了负载均衡，适合存储 4KB~500MB 之间的小文件，特别适合以文件为载体的在线服务，如图片、视频、文档等等。

2020labs小助手

2022-04-26

2K0

Spark SQL 字段血缘在 vivo 互联网的实践

大数据 spark 数据处理

有了字段间的血缘关系，便可以知道数据的来源去处，以及字段之间的转换关系，这样对数据的质量，治理有很大的帮助。

2020labs小助手

2022-04-25

1.3K0

HBase海量数据高效入仓解决方案

大数据 hbase

现阶段部分业务数据存储在HBase中，这部分数据体量较大，达到数十亿。大数据需要增量同步这部分业务数据到数据仓库中，进行离线分析，目前主要的同步方式是通过HBase的hive映射表来实现的。该种方式具有以下痛点：

2020labs小助手

2022-03-21

6350

用户行为分析模型实践（一）—— 路径分析模型

大数据数据分析云数据仓库 ClickHouse

在互联网数据化运营实践中，有一类数据分析应用是互联网行业所独有的——路径分析。路径分析应用是对特定页面的上下游进行可视化展示并分析用户在使用产品时的路径分布情况。比如：当用户使用某APP时，是怎样从【首页】进入【详情页】的，用户从【首页】分别进入【详情页】、【播放页】、【下载页】的比例是怎样的，以及可以帮助我们分析用户离开的节点是什么。

2020labs小助手

2021-03-15

2.7K0

Linux Page Cache调优在 Kafka 中的应用

大数据 kafka

本文主要描述Linux Page Cache优化的背景、Page Cache的基本概念、列举之前针对Kafka的 IO 性能瓶颈采取的一些解决方案、如何进行Page Cache相关参数调整以及性能优化前后效果对比。

2020labs小助手

2020-08-24

2.7K0

Spark 数据倾斜及其解决方案

spark 大数据 mapreduce

本文从数据倾斜的危害、现象、原因等方面，由浅入深阐述Spark数据倾斜及其解决方案。

2020labs小助手

2019-12-30

9040

大数据平台架构设计探究

大数据 serverless ide sql

近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失，会导致业务层难以直接利用大数据大数据，大数据和业务产生了巨大的鸿沟，这道鸿沟的出现导致企业在使用大数据的过程中出现数据不可知、需求难实现、数据难共享等一系列问题，本文介绍了一些数据平台设计思路来帮助业务减少数据开发中的痛点和难点。

2020labs小助手

2019-12-23

1.8K0

【大数据】SparkSql连接查询中的谓词下推处理(一)

SparkSql是架构在Spark计算框架之上的分布式Sql引擎，使用DataFrame和DataSet承载结构化和半结构化数据来实现数据复杂查询处理，提供的DSL可以直接使用scala语言完成Sql查询，同时也使用thriftserver提供服务化的Sql查询功能。SparkSql提供了DataSource API，用户通过这套API可以自己开发一套Connector，直接查询各类数据源，数据源包括NoSql、RDBMS、搜索引擎以及HDFS等分布式文件系统上的文件等。和SparkSql类似的系统有Hive、PrestoDB以及Impala，这类系统都属于所谓的"Sql on Hadoop"系统,每个都相当火爆，毕竟在这个不搞SQL就是耍流氓的年代，没SQL确实很难找到用户使用。

2019-04-19

9700

干货：看了这篇以后不要再说看不懂 Circos 图了

对象存储数据库大数据 sql perl

本文根据杨振涛 2018 年 5 月 12 日在【第九届中国数据库技术大会】上的演讲内容整理而成。

2019-04-19

6K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态