腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏作者

810

文章

1217130

阅读量

247

订阅数

元数据管理在数据仓库的实践应用

数据安全数据结构云数据库 SQL Server 数据处理

导读：元数据管理是企业数据治理的基础，是数据仓库的提升。作为一名数据人，首要任务就是理解元数据管理。

Spark学习技巧

2022-01-13

5860

大批量更新数据mysql批量更新的四种方法

sql 数据库云数据库 SQL Server 腾讯云测试服务

mysql 批量更新如果一条条去更新效率是相当的慢, 循环一条一条的更新记录,一条记录update一次，这样性能很差，也很容易造成阻塞。

Spark学习技巧

2022-01-13

24.9K0

数仓服务平台在唯品会的建设实践

sql 数据库云数据库 SQL Server 编程算法大数据

数据服务是数据中台体系中的关键组成部分。作为数仓对接上层应用的统一出入口，数据服务将数仓当作一个统一的 DB 来访问，提供统一的 API 接口控制数据的流入及流出，能够满足用户对不同类型数据的访问需求。

Spark学习技巧

2022-01-13

9930

MySQL 用 limit 为什么会影响性能？

云数据库 SQL Server sql 数据库 node.js

我们知道，当limit offset rows中的offset很大时，会出现效率问题：

Spark学习技巧

2022-01-13

1.2K0

谈谈ClickHouse性能情况以及相关优化

云数据库 SQL Server 数据库管理数据库 sql

注意：ClickHouse并非无所不能，查询语句需要不断的调优，可能与查询条件有关，不同的查询条件表是左join还是右join也是很有讲究的

Spark学习技巧

2021-07-30

4.3K0

Impala在网易大数据的优化和实践

云数据库 SQL Server 网站 hive 缓存 sql

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享下Impala在网易大数据的优化和实践。

Spark学习技巧

2021-03-05

1.3K0

深入分析 Flink SQL 工作机制

sql 数据库云数据库 SQL Server flink 大数据

摘要：本文整理自 Flink Forward 2020 全球在线会议中文精华版，由 Apache Flink PMC 伍翀（云邪）分享，社区志愿者陈婧敏（清樾）整理。旨在帮助大家更好地理解 Flink SQL 引擎的工作原理。文章主要分为以下四部分：

Spark学习技巧

2021-03-05

1.7K0

简单明了！OLTP场景下的数据分布式设计原则

分布式数据库 sql 云数据库 SQL Server 数据迁移

温卫斌，就职于中国民生银行信息科技部，目前负责分布式技术平台设计与研发，主要关注分布式数据相关领域。

Spark学习技巧

2021-03-05

6740

java实操｜mysql数据增量同步到kafka

kafka 消息队列 CMQ 版数据库云数据库 SQL Server 网站

生产中由于历史原因web后端，mysql集群，kafka集群(或者其它消息队列)会存在一下三种结构。

Spark学习技巧

2021-03-05

2.2K0

【开发实践】美团为什么开发 Kylin On Druid（下）？

云数据库 SQL Server 数据库 sql 存储 hbase

在上篇文章里，我们比较了 Kylin 和 Druid 这两个重要的 OLAP引擎的特点，也分析了 Kylin on HBase 的不足，得出了使用 Druid 代替 HBase 作为 Kylin 存储的方案，最后介绍了美团开发的 Kylin on Druid 的架构和流程。在这篇文章中，我们接着上篇文章，将介绍如何使用 Kylin on Druid，Kylin on Druid 的性能表现，以及在使用过程中总结的一些经验。

Spark学习技巧

2021-03-05

3640

基于Canal与Flink实现数据实时增量同步(一)

云数据库 SQL Server json 运维 github https

canal是阿里巴巴旗下的一款开源项目，纯Java开发。基于数据库增量日志解析，提供增量数据订阅&消费，目前主要支持了MySQL（也支持mariaDB）。

Spark学习技巧

2020-09-08

2.3K0

基于Canal与Flink实现数据实时增量同步(二)

数据库云数据库 SQL Server sql hive flink

在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(Operational Data Store)数据。在互联网企业中，常见的ODS数据有业务日志数据（Log）和业务DB数据（DB）两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量取数并Load：直连MySQL去Select表中的数据，然后存到本地文件作为中间存储，最后把文件Load到Hive表中。这种方案的优点是实现简单，但是随着业务的发展，缺点也逐渐暴露出来：

Spark学习技巧

2020-09-08

1.7K0

基于Spark的大规模推荐系统特征工程

云数据库 SQL Server nosql sql spark 数据库

导读：特征工程在推荐系统中有着举足轻重的作用，大规模特征工程处理的效率极大的影响了推荐系统线上的性能。第四范式作为国际领先的机器学习和人工智能技术与平台服务提供商，面向大规模特征工程问题开发了下一代离线在线一致性特征抽取引擎FESQL，针对AI场景支持SQL接口，兼容Spark 3.0同时提供高性能的Native执行引擎。本次分享题目为基于Spark的大规模推荐系统特征工程及优化，主要内容包括：

Spark学习技巧

2020-09-08

1K0

从 Spark Streaming 到 Apache Flink：bilibili 实时平台的架构与实践

云数据库 SQL Server hbase TDSQL MySQL 版云数据库 Redis 云计算

摘要：本文由 bilibili 大数据实时平台负责人郑志升分享，基于对 bilibili 实时计算的痛点分析，详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面：

Spark学习技巧

2020-02-26

1.4K0

Flink通过异步IO实现redis维表join

大数据数据库云数据库 Redis api 云数据库 SQL Server

使用flink做实时数仓的公司越来越多了，浪尖这边也是很早就开发了一个flink 全sql平台来实现实时数仓的功能。说到实时数仓，两个表的概念大家一定会知道的：事实表和维表。

Spark学习技巧

2019-12-27

3.4K0

基于MySQL Binlog 的 Elasticsearch 数据同步实践

Elasticsearch Service 云数据库 SQL Server 数据库 sql kafka

随着马蜂窝的逐渐发展，我们的业务数据越来越多，单纯使用 MySQL 已经不能满足我们的数据查询需求，例如对于商品、订单等数据的多维度检索。

Spark学习技巧

2019-11-18

1K0

日均百亿级日志处理：微博基于Flink的实时计算平台建设

编程算法大数据日志数据云数据库 SQL Server sql

黄鹏，微博广告实时数据开发工程师，负责法拉第实验平台数据开发、实时数据关联平台、实时算法特征数据计算、实时数据仓库、实时数据清洗组件开发工作。

Spark学习技巧

2019-11-15

1.5K0

饿了么元数据管理实践之路

hive 云数据库 SQL Server 数据库 sql 大数据

元数据打通数据源、数据仓库、数据应用，记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息（也就是MetaStore）；动态的任务、表依赖映射关系；数据仓库的模型定义、数据生命周期；以及ETL任务调度信息、输入输出等。

Spark学习技巧

2019-11-09

4.9K0

基于Elastic Stack的海量日志分析平台实践

日志数据 Elasticsearch Service 云数据库 SQL Server 数据库 sql

随着58集团业务的飞速发展，日志数量也呈现指数级增长。传统的日志处理方案，已不再适用，此时急需一套功能强大、稳定可靠的日志处理系统。

Spark学习技巧

2019-10-24

1.2K0

Apache Beam 架构原理及应用实践

云数据库 SQL Server ide apache kafka bash

导读：大家好，很荣幸跟大家分享 Apache Beam 架构原理及应用实践。讲这门课之前大家可以想想，从进入 IT 行业以来，不停的搬运数据，不管职务为前端，还是后台服务器端开发。随着这两年科技的发展，各种数据库，数据源，应运而生，大数据组件，框架也是千变万化，从 Hadoop 到现在的 Spark、Flink，数据库从先前的 oracle、MySQL 到现在的 NOSQL，不断延伸。那么有没有统一的框架，统一的数据源搬砖工具呢？

Spark学习技巧

2019-10-15

3.3K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态