腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Spark学习技巧
本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
举报
803
文章
1202532
阅读量
247
订阅数
订阅专栏
申请加入专栏
全部文章
spark
大数据
sql
数据库
编程算法
java
kafka
数据分析
其他
存储
分布式
flink
缓存
hive
云数据库 SQL Server
hbase
apache
node.js
api
hadoop
数据结构
数据处理
http
ide
linux
云数据库 Redis
zookeeper
机器学习
scala
文件存储
TDSQL MySQL 版
jvm
https
开源
网站
网络安全
windows
mapreduce
jdk
数据
javascript
bash
数据安全
yarn
运维
数据湖
Elasticsearch Service
html
json
unix
神经网络
深度学习
日志数据
企业
hashmap
云计算
打包
git
消息队列 CMQ 版
系统架构
maven
人工智能
安全
php
python
bash 指令
知识图谱
腾讯云测试服务
数据迁移
推荐系统
实时数仓
数据挖掘
xml
jquery
jar
批量计算
容器
面向对象编程
rpc
设计
数据仓库
自动驾驶
android
搜索引擎
spring
mongodb
电商
tcp/ip
rabbitmq
微信
微服务
数据集成
app
join
模型
区块链
go
eclipse
github
全文检索
容器镜像服务
serverless
自动化
压力测试
uml
数据可视化
架构设计
任务调度
bug
key
mysql
offset
partition
ps
产品
架构
流量
异常
官方文档
NLP 服务
c++
c#
ruby
lua
单片机
postgresql
nginx
访问管理
云数据库 MongoDB
消息队列 CKafka 版
大数据解决方案
kubernetes
无人驾驶
ssh
卷积神经网络
erp
jdbc
二叉树
aop
processing
sdk
实时监控
学习方法
数据库管理
数据脱敏
bi
date
hdfs
null
shuffle
程序员
管理
框架
链表
内存
排序
配置
日志
入门
原理
费用中心
负载均衡
比特币
tensorflow
ios
objective-c
c 语言
actionscript
css
ajax
sqlite
nosql
memcached
access
mvc
svn
struts
tomcat
中文分词
lucene/solr
analyzer
负载均衡缓存
tornado
GPU 云服务器
专用宿主机
云数据迁移
日志服务
云直播
短视频
腾讯云可观测平台
SSL 证书
数据加密服务
腾讯git代码托管(工蜂)
数据备份
express
rollup.js
游戏
互联网金融
爬虫
正则表达式
mybatis
sql server
opencv
自动化测试
kotlin
scrapy
dubbo
ddos
udp
kernel
socket编程
无监督学习
nat
nest
视频分析
flutter
风控平台
安全运营平台
特征工程
unicode
groovy
功能测试
性能测试
es
实时数据集成
事件总线
腾讯云数据仓库 TCHouse
数据湖分析
智能推荐平台
教育
数据库审计
class
cpu
data
decimal
dump
elk
event
exists
final
flume
foreach
for循环
frequency
function
gc
google
gson
initialization
ip
it
jackson
java8
lambda
list
map
message
overflow
public
push
quartz
rank
request
return
select
server
sqoop
stack
static
streaming
string
stringbuilder
subquery
thrift
web
报表
编译
边缘计算
测试
程序
创业
磁盘
单例模式
登录
多线程
服务
工具
工作
行业
混合云
集合
技巧
监控
解决方案
开发
生命周期
实践
事件
实时计算
事务
数据管理
同步
统计
网关
线程池
效率
性能优化
字符串
搜索文章
搜索
搜索
关闭
大厂实时数仓建设项目实例
数据湖分析
数据湖
数据分析
数据处理
sql
目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高的场景,对于实效性要求很高的场景还是无法优雅的支撑。因此实时使用数据的问题必须得到有效解决。
Spark学习技巧
2022-04-18
1K
0
元数据管理在数据仓库的实践应用
数据安全
数据结构
云数据库 SQL Server
数据处理
导读:元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要任务就是理解元数据管理。
Spark学习技巧
2022-01-13
572
0
ETL工具算法构建企业级数据仓库五步法
数据库
数据分析
数据处理
编程算法
sql
ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合,得出一致性的数据,然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程。
Spark学习技巧
2022-01-13
1K
0
Flink CDC 2.0 数据处理流程全面解析
大数据
flink
数据处理
8月份 FlinkCDC 发布2.0.0版本,相较于1.0版本,在全量读取阶段支持分布式读取、支持checkpoint,且在全量 + 增量读取的过程在不锁表的情况下保障数据一致性。
Spark学习技巧
2022-01-13
1.4K
0
Hadoop重点难点:Hadoop IO/压缩/序列化
node.js
hadoop
文件存储
存储
数据处理
序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。
Spark学习技巧
2022-01-13
878
0
实时数仓不保障时效还玩个毛?
flink
大数据
unix
数据处理
懒癌患者福利,先说本文结论,通过以下两个指标就已经能监控和判定 90% 数据延迟、乱序问题了。
Spark学习技巧
2021-07-27
997
0
数据湖VS数据仓库?湖仓一体了解一下
数据湖
腾讯云数据仓库 TCHouse
数据安全
数据分析
数据处理
导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。
Spark学习技巧
2021-03-11
2.4K
0
基于大数据的用户画像构建小百科全书
spark
数据挖掘
数据库
大数据
数据处理
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。
Spark学习技巧
2021-03-05
1.1K
0
漫说数据湖——如何建湖?如何做数据ETL?如何使用数据......
数据湖
数据安全
数据处理
大数据
后来,为了更有效率的记事和工作,数据库出现了。数据库核心是满足快速的增删改查,应对联机事务。
Spark学习技巧
2021-03-05
671
0
从数仓到数据中台,谈技术选型最优解
数据湖
数据库
数据安全
数据分析
数据处理
21世纪的第一个10年,企业级数据仓库(EDW)从萌芽到蓬勃发展,“IOT”( IBM、Oracle、Teradata)占领了大部分市场,提供数据仓库建设从硬件、软件到实施的整体方案。
Spark学习技巧
2021-03-05
750
0
爱奇艺在日志实时数据监控的探索与实践
腾讯云可观测平台
nginx
运维
编程算法
数据处理
2019年6月爱奇艺会员规模突破1亿,爱奇艺的会员服务业务随之迅速增长,同时也带来了机器集群规模的增加,原有的监控体系也暴露出一些问题。数据监控体系是业务维持稳定服务的基石,会员日志监控体系形成闭环,从网络、应用、异常、页面加载多维度监控,极大提高了系统的成功率、稳定性,对会员视频播放、营销、下单等核心功能增强异常感知。
Spark学习技巧
2021-03-05
1.1K
0
Kafka 集群在马蜂窝大数据平台的优化与应用扩展
kafka
大数据
数据分析
数据处理
数据安全
Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐、低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题。
Spark学习技巧
2021-03-05
473
0
推荐系统之标签体系
大数据
数据处理
电商
一个推荐系统效果好与坏最基本的保障、最基础的是什么?如果让我来回答,一定是标签体系。我这里说的标签主要是针对物料的,对于电商平台来说就是商品;对于音乐平台来说就是每一个首歌,对于新闻资讯平台来说就是每一条新闻。下一篇要介绍的是用户画像,画像中那些用户实时变化的兴趣点大都也是来自于标签体系,依据用户长期和短期行为中对于物料搜索、点击、收藏、评论、转发等事件,将物料的标签传导到用户画像上,就构成了用户的实时画像和离线画像中的各个动态维度。
Spark学习技巧
2021-01-25
1.2K
0
从Druid到ClickHouse | eBay广告平台数据OLAP实战
数据分析
数据处理
api
spark
数据库
本文介绍eBay广告数据平台的基本情况,并对比分析了ClickHouse与Druid的使用特点。基于ClickHouse表现出的良好性能和扩展能力,本文介绍了如何将eBay广告系统从Druid迁移至ClickHouse,希望能为同业人员带来一定的启发。
Spark学习技巧
2020-12-28
1.5K
0
Flink的处理背压原理及问题-面试必备
flink
大数据
数据处理
编程算法
java
反压机制(BackPressure)被广泛应用到实时流处理系统中,流处理系统需要能优雅地处理反压(backpressure)问题。反压通常产生于这样的场景:短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压,例如,垃圾回收停顿可能会导致流入的数据快速堆积,或者遇到大促或秒杀活动导致流量陡增。反压如果不能得到正确的处理,可能会导致资源耗尽甚至系统崩溃。反压机制就是指系统能够自己检测到被阻塞的Operator,然后系统自适应地降低源头或者上游的发送速率。目前主流的流处理系统 Apache Storm、JStorm、Spark Streaming、S4、Apache Flink、Twitter Heron都采用反压机制解决这个问题,不过他们的实现各自不同。
Spark学习技巧
2020-09-08
4.5K
0
企业如何提升数据质量,实现业务增长?
数据处理
数据分析
企业
大数据
数据是企业最具价值的资产之一,而数据质量则直接影响数据的产出和数据价值的高低。因此,数据质量的管理对于企业决策、战略水平和业绩提升至关重要。今天我们就来聊一聊企业如何评估和提升数据质量。
Spark学习技巧
2019-08-09
461
0
知乎质量平台的设计和实现
编程算法
数据库
数据处理
sql
其中的每一项工作都产生了大量质量数据,这些数据不仅可以用来衡量 QA 团队工作的效果,我们还可以通过质量数据的发布进一步增强其他团队质量意识,更好的建设全公司的质量文化。
Spark学习技巧
2019-06-18
1.1K
0
kappa和lambda对比
批量计算
数据处理
首先我们会详细的讲解这两种架构,实现这两种架构的技术工具,还有就是如何决策使用这两种架构。
Spark学习技巧
2019-05-15
1.7K
0
大数据实战|怎样实现大型电商热销榜?
数据处理
数据结构
分布式
编程算法
上次给粉丝的福利,购买极客时间课程,浪尖这里返现:球友24元,非球友10元或者8折入球。大家还记得吗,发现很多粉丝比较滞后,这两天还陆续找我要返现,,,今天看了一下,极客时间优惠还剩两天吧,过了这两天就真没返现了,找我,我也不能贴补你,,,活动详情可以阅读下文。扫文末二维码购买然后联系浪尖。
Spark学习技巧
2019-05-14
1K
0
Spark Streaming 场景应用
数据处理
Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用 Spark Streaming 方面的技术架构,并着重讲解 Spark Streaming 两种计算模型,无状态和状态计算模型以及该两种模型的注意事项;接着介绍了 Spark Streaming 在监控方面所做的一些事情,最后总结了 Spark Streaming 的优缺点。
Spark学习技巧
2018-12-25
1.7K
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
点击查看
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
立即参加
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档