腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Spark学习技巧
本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
举报
810
文章
1217130
阅读量
247
订阅数
订阅专栏
申请加入专栏
全部文章
spark
大数据
sql
数据库
编程算法
java
kafka
数据分析
存储
其他
分布式
hive
flink
缓存
云数据库 SQL Server
hbase
apache
node.js
api
hadoop
数据结构
数据处理
http
ide
linux
zookeeper
scala
云数据库 Redis
机器学习
文件存储
TDSQL MySQL 版
jvm
https
数据
开源
网站
网络安全
windows
mapreduce
jdk
javascript
bash
数据安全
yarn
运维
数据湖
企业
Elasticsearch Service
html
json
unix
神经网络
深度学习
日志数据
hashmap
云计算
打包
git
消息队列 CMQ 版
系统架构
maven
人工智能
安全
php
python
bash 指令
知识图谱
腾讯云测试服务
数据迁移
推荐系统
实时数仓
数据挖掘
xml
jquery
jar
批量计算
容器
面向对象编程
rpc
rabbitmq
设计
数据仓库
自动驾驶
android
搜索引擎
spring
mongodb
电商
tcp/ip
微信
微服务
数据集成
app
join
框架
模型
区块链
go
eclipse
github
全文检索
容器镜像服务
serverless
自动化
压力测试
uml
数据可视化
架构设计
任务调度
bug
key
mysql
offset
partition
ps
产品
管理
函数
架构
流量
排序
日志
异常
官方文档
NLP 服务
c++
c#
ruby
lua
单片机
postgresql
nginx
访问管理
云数据库 MongoDB
消息队列 CKafka 版
大数据解决方案
kubernetes
无人驾驶
ssh
卷积神经网络
erp
jdbc
二叉树
aop
processing
sdk
实时监控
学习方法
数据库管理
数据脱敏
bi
date
hdfs
null
shuffle
测试
程序
程序员
服务
链表
内存
配置
入门
实践
系统
原理
费用中心
负载均衡
比特币
tensorflow
ios
objective-c
c 语言
actionscript
css
ajax
sqlite
nosql
memcached
access
mvc
svn
struts
tomcat
中文分词
lucene/solr
analyzer
负载均衡缓存
tornado
GPU 云服务器
专用宿主机
云数据迁移
日志服务
云直播
短视频
腾讯云可观测平台
SSL 证书
数据加密服务
腾讯git代码托管(工蜂)
数据备份
express
rollup.js
游戏
互联网金融
爬虫
正则表达式
mybatis
sql server
opencv
自动化测试
kotlin
scrapy
dubbo
ddos
udp
kernel
socket编程
无监督学习
nat
nest
视频分析
flutter
风控平台
安全运营平台
特征工程
unicode
迁移
groovy
功能测试
性能测试
es
实时数据集成
事件总线
腾讯云数据仓库 TCHouse
数据湖分析
智能推荐平台
教育
数据库审计
class
cpu
data
decimal
dump
elk
event
exists
final
flume
foreach
for循环
frequency
function
gc
google
gson
initialization
ip
it
jackson
java8
lambda
list
map
message
overflow
public
push
quartz
rank
redis
request
return
select
server
sqoop
stack
static
streaming
string
stringbuilder
subquery
thrift
web
报表
闭包
变量
编译
边缘计算
创业
磁盘
单例模式
登录
多线程
工具
工作
行业
混合云
集合
技巧
集群
监控
解决方案
开发
面试
生命周期
事件
实时计算
事务
数据管理
同步
统计
网关
线程池
效率
协议
性能
性能监控
性能优化
异步编程
中间件
字符串
搜索文章
搜索
搜索
关闭
元数据管理在数据仓库的实践应用
数据安全
数据结构
云数据库 SQL Server
数据处理
导读:元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要任务就是理解元数据管理。
Spark学习技巧
2022-01-13
586
0
大批量更新数据mysql批量更新的四种方法
sql
数据库
云数据库 SQL Server
腾讯云测试服务
mysql 批量更新如果一条条去更新效率是相当的慢, 循环一条一条的更新记录,一条记录update一次,这样性能很差,也很容易造成阻塞。
Spark学习技巧
2022-01-13
24.9K
0
数仓服务平台在唯品会的建设实践
sql
数据库
云数据库 SQL Server
编程算法
大数据
数据服务是数据中台体系中的关键组成部分。作为数仓对接上层应用的统一出入口,数据服务将数仓当作一个统一的 DB 来访问,提供统一的 API 接口控制数据的流入及流出,能够满足用户对不同类型数据的访问需求。
Spark学习技巧
2022-01-13
993
0
MySQL 用 limit 为什么会影响性能?
云数据库 SQL Server
sql
数据库
node.js
我们知道,当limit offset rows中的offset很大时,会出现效率问题:
Spark学习技巧
2022-01-13
1.2K
0
谈谈ClickHouse性能情况以及相关优化
云数据库 SQL Server
数据库管理
数据库
sql
注意:ClickHouse并非无所不能,查询语句需要不断的调优,可能与查询条件有关,不同的查询条件表是左join还是右join也是很有讲究的
Spark学习技巧
2021-07-30
4.3K
0
Impala在网易大数据的优化和实践
云数据库 SQL Server
网站
hive
缓存
sql
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享下Impala在网易大数据的优化和实践。
Spark学习技巧
2021-03-05
1.3K
0
深入分析 Flink SQL 工作机制
sql
数据库
云数据库 SQL Server
flink
大数据
摘要:本文整理自 Flink Forward 2020 全球在线会议中文精华版,由 Apache Flink PMC 伍翀(云邪)分享,社区志愿者陈婧敏(清樾)整理。旨在帮助大家更好地理解 Flink SQL 引擎的工作原理。文章主要分为以下四部分:
Spark学习技巧
2021-03-05
1.7K
0
简单明了!OLTP场景下的数据分布式设计原则
分布式
数据库
sql
云数据库 SQL Server
数据迁移
温卫斌,就职于中国民生银行信息科技部,目前负责分布式技术平台设计与研发,主要关注分布式数据相关领域。
Spark学习技巧
2021-03-05
674
0
java实操|mysql数据增量同步到kafka
kafka
消息队列 CMQ 版
数据库
云数据库 SQL Server
网站
生产中由于历史原因web后端,mysql集群,kafka集群(或者其它消息队列)会存在一下三种结构。
Spark学习技巧
2021-03-05
2.2K
0
【开发实践】美团为什么开发 Kylin On Druid(下)?
云数据库 SQL Server
数据库
sql
存储
hbase
在上篇文章里,我们比较了 Kylin 和 Druid 这两个重要的 OLAP引擎的特点,也分析了 Kylin on HBase 的不足,得出了使用 Druid 代替 HBase 作为 Kylin 存储的方案,最后介绍了美团开发的 Kylin on Druid 的架构和流程。在这篇文章中,我们接着上篇文章,将介绍如何使用 Kylin on Druid,Kylin on Druid 的性能表现,以及在使用过程中总结的一些经验。
Spark学习技巧
2021-03-05
364
0
基于Canal与Flink实现数据实时增量同步(一)
云数据库 SQL Server
json
运维
github
https
canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。
Spark学习技巧
2020-09-08
2.3K
0
基于Canal与Flink实现数据实时增量同步(二)
数据库
云数据库 SQL Server
sql
hive
flink
在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中?一般常用的解决方案是批量取数并Load:直连MySQL去Select表中的数据,然后存到本地文件作为中间存储,最后把文件Load到Hive表中。这种方案的优点是实现简单,但是随着业务的发展,缺点也逐渐暴露出来:
Spark学习技巧
2020-09-08
1.7K
0
基于Spark的大规模推荐系统特征工程
云数据库 SQL Server
nosql
sql
spark
数据库
导读:特征工程在推荐系统中有着举足轻重的作用,大规模特征工程处理的效率极大的影响了推荐系统线上的性能。第四范式作为国际领先的机器学习和人工智能技术与平台服务提供商,面向大规模特征工程问题开发了下一代离线在线一致性特征抽取引擎FESQL,针对AI场景支持SQL接口,兼容Spark 3.0同时提供高性能的Native执行引擎。本次分享题目为基于Spark的大规模推荐系统特征工程及优化,主要内容包括:
Spark学习技巧
2020-09-08
1K
0
从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践
云数据库 SQL Server
hbase
TDSQL MySQL 版
云数据库 Redis
云计算
摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面:
Spark学习技巧
2020-02-26
1.4K
0
Flink通过异步IO实现redis维表join
大数据
数据库
云数据库 Redis
api
云数据库 SQL Server
使用flink做实时数仓的公司越来越多了,浪尖这边也是很早就开发了一个flink 全sql平台来实现实时数仓的功能。说到实时数仓,两个表的概念大家一定会知道的:事实表和维表。
Spark学习技巧
2019-12-27
3.4K
0
基于MySQL Binlog 的 Elasticsearch 数据同步实践
Elasticsearch Service
云数据库 SQL Server
数据库
sql
kafka
随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。
Spark学习技巧
2019-11-18
1K
0
日均百亿级日志处理:微博基于Flink的实时计算平台建设
编程算法
大数据
日志数据
云数据库 SQL Server
sql
黄鹏,微博广告实时数据开发工程师,负责法拉第实验平台数据开发、实时数据关联平台、实时算法特征数据计算、实时数据仓库、实时数据清洗组件开发工作。
Spark学习技巧
2019-11-15
1.5K
0
饿了么元数据管理实践之路
hive
云数据库 SQL Server
数据库
sql
大数据
元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义、数据生命周期;以及ETL任务调度信息、输入输出等。
Spark学习技巧
2019-11-09
4.9K
0
基于Elastic Stack的海量日志分析平台实践
日志数据
Elasticsearch Service
云数据库 SQL Server
数据库
sql
随着58集团业务的飞速发展,日志数量也呈现指数级增长。传统的日志处理方案,已不再适用,此时急需一套功能强大、稳定可靠的日志处理系统。
Spark学习技巧
2019-10-24
1.2K
0
Apache Beam 架构原理及应用实践
云数据库 SQL Server
ide
apache
kafka
bash
导读:大家好,很荣幸跟大家分享 Apache Beam 架构原理及应用实践。讲这门课之前大家可以想想,从进入 IT 行业以来,不停的搬运数据,不管职务为前端,还是后台服务器端开发。随着这两年科技的发展,各种数据库,数据源,应运而生,大数据组件,框架也是千变万化,从 Hadoop 到现在的 Spark、Flink,数据库从先前的 oracle、MySQL 到现在的 NOSQL,不断延伸。那么有没有统一的框架,统一的数据源搬砖工具呢?
Spark学习技巧
2019-10-15
3.3K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档