腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Spark学习技巧
本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏成员
举报
810
文章
1303382
阅读量
248
订阅数
订阅专栏
申请加入专栏
全部文章(810)
spark(162)
大数据(156)
sql(131)
数据库(123)
编程算法(122)
java(101)
kafka(57)
数据分析(54)
存储(52)
其他(51)
分布式(45)
hive(45)
flink(45)
缓存(44)
云数据库 SQL Server(43)
hbase(41)
apache(39)
node.js(36)
api(35)
hadoop(30)
数据结构(29)
数据处理(28)
http(24)
ide(23)
linux(21)
zookeeper(21)
scala(20)
云数据库 Redis(20)
机器学习(19)
文件存储(19)
TDSQL MySQL 版(19)
jvm(19)
https(16)
数据(15)
开源(14)
网站(13)
网络安全(13)
windows(13)
mapreduce(12)
jdk(12)
javascript(11)
bash(11)
数据安全(11)
yarn(11)
运维(11)
数据湖(11)
企业(10)
Elasticsearch Service(10)
html(9)
json(9)
unix(9)
神经网络(9)
深度学习(9)
日志数据(9)
hashmap(9)
云计算(9)
打包(8)
git(8)
消息队列 CMQ 版(8)
系统架构(8)
maven(7)
人工智能(7)
安全(7)
php(6)
python(6)
bash 指令(6)
知识图谱(6)
腾讯云测试服务(6)
数据迁移(6)
推荐系统(6)
实时数仓(6)
数据挖掘(5)
xml(5)
jquery(5)
jar(5)
批量计算(5)
容器(5)
面向对象编程(5)
rpc(5)
rabbitmq(5)
设计(5)
数据仓库(5)
自动驾驶(4)
android(4)
搜索引擎(4)
spring(4)
mongodb(4)
电商(4)
tcp/ip(4)
微信(4)
微服务(4)
数据集成(4)
app(4)
join(4)
框架(4)
模型(4)
区块链(3)
go(3)
eclipse(3)
github(3)
全文检索(3)
容器镜像服务(3)
serverless(3)
自动化(3)
压力测试(3)
uml(3)
数据可视化(3)
架构设计(3)
任务调度(3)
bug(3)
key(3)
mysql(3)
offset(3)
partition(3)
ps(3)
产品(3)
管理(3)
函数(3)
架构(3)
流量(3)
排序(3)
日志(3)
异常(3)
官方文档(2)
NLP 服务(2)
c++(2)
c#(2)
ruby(2)
lua(2)
单片机(2)
postgresql(2)
nginx(2)
访问管理(2)
云数据库 MongoDB(2)
消息队列 CKafka 版(2)
大数据解决方案(2)
kubernetes(2)
无人驾驶(2)
ssh(2)
卷积神经网络(2)
erp(2)
jdbc(2)
二叉树(2)
aop(2)
processing(2)
sdk(2)
实时监控(2)
学习方法(2)
数据库管理(2)
数据脱敏(2)
bi(2)
date(2)
hdfs(2)
null(2)
shuffle(2)
测试(2)
程序(2)
程序员(2)
服务(2)
链表(2)
内存(2)
配置(2)
入门(2)
实践(2)
系统(2)
原理(2)
费用中心(1)
负载均衡(1)
比特币(1)
tensorflow(1)
ios(1)
objective-c(1)
c 语言(1)
actionscript(1)
css(1)
ajax(1)
sqlite(1)
nosql(1)
memcached(1)
access(1)
mvc(1)
svn(1)
struts(1)
tomcat(1)
中文分词(1)
lucene/solr(1)
analyzer(1)
负载均衡缓存(1)
tornado(1)
GPU 云服务器(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
云直播(1)
短视频(1)
腾讯云可观测平台(1)
SSL 证书(1)
数据加密服务(1)
腾讯git代码托管(工蜂)(1)
数据备份(1)
express(1)
rollup.js(1)
游戏(1)
互联网金融(1)
爬虫(1)
正则表达式(1)
mybatis(1)
sql server(1)
opencv(1)
自动化测试(1)
kotlin(1)
scrapy(1)
dubbo(1)
ddos(1)
udp(1)
kernel(1)
socket编程(1)
无监督学习(1)
nat(1)
nest(1)
视频分析(1)
flutter(1)
风控平台(1)
安全运营平台(1)
特征工程(1)
unicode(1)
迁移(1)
groovy(1)
功能测试(1)
性能测试(1)
es(1)
实时数据集成(1)
事件总线(1)
腾讯云数据仓库 TCHouse(1)
数据湖分析(1)
智能推荐平台(1)
教育(1)
数据库审计(1)
class(1)
cpu(1)
data(1)
decimal(1)
dump(1)
elk(1)
event(1)
exists(1)
final(1)
flume(1)
foreach(1)
for循环(1)
frequency(1)
function(1)
gc(1)
google(1)
gson(1)
initialization(1)
ip(1)
it(1)
jackson(1)
java8(1)
lambda(1)
list(1)
map(1)
message(1)
overflow(1)
public(1)
push(1)
quartz(1)
rank(1)
redis(1)
request(1)
return(1)
select(1)
server(1)
sqoop(1)
stack(1)
static(1)
streaming(1)
string(1)
stringbuilder(1)
subquery(1)
thrift(1)
web(1)
报表(1)
闭包(1)
变量(1)
编译(1)
边缘计算(1)
创业(1)
磁盘(1)
单例模式(1)
登录(1)
多线程(1)
工具(1)
工作(1)
行业(1)
混合云(1)
集合(1)
技巧(1)
集群(1)
监控(1)
解决方案(1)
开发(1)
面试(1)
生命周期(1)
事件(1)
实时计算(1)
事务(1)
数据管理(1)
同步(1)
统计(1)
网关(1)
线程池(1)
效率(1)
协议(1)
性能(1)
性能监控(1)
性能优化(1)
异步编程(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
一文讲透如何做数据分析和指标体系
数据分析
产品
服务
模型
数据
本文内容基于自己从事支付领域从0到1搭建支付业务数据分析实战经验。如果你对写代码念念不忘,可以看我的历史文章,有很多代码相关的内容。
Spark学习技巧
2023-12-01
745
0
DAU下降问题数据分析-牛逼
数据分析
app
push
异常
尽管不同业务形态、以及不同发展阶段的公司,其用户增长模式各有差异,但都可以从拉新策略和促活策略进行分解。
Spark学习技巧
2023-03-21
1.6K
0
一篇并不起眼的Spark面试题
spark
数据库
sql
大数据
数据分析
spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性好。主要区别
Spark学习技巧
2022-04-18
924
0
大厂实时数仓建设项目实例
数据湖分析
数据湖
数据分析
数据处理
sql
目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高的场景,对于实效性要求很高的场景还是无法优雅的支撑。因此实时使用数据的问题必须得到有效解决。
Spark学习技巧
2022-04-18
1.1K
0
8个数据分析模型简介
数据分析
大家在工作中是不是经常要做各种分析,但又常常遇到无从下手,抓不住重点,搞不清关键数据的情况。俗话说“工欲善其事,必先利其器。”一个好用的数据分析模型,能给我们提供一种视角和思维框架,从而帮我们理清分析逻辑,提高分析准确性。
Spark学习技巧
2022-03-15
495
0
2022数据工程师如何避免陷入内卷?
数据分析
大数据
内卷(involution)是近两年流行起来的一个名词,用来指带人类社会在一个发展阶段达到某种确定的形式后,停滞不前或无法转化为另一种高级模式的现象,现在很多人用它来指代非理性的内部竞争或“被自愿”竞争。
Spark学习技巧
2022-03-15
291
0
8000字,详解用户画像,助力企业精细化运营
数据库
日志数据
sql
大数据
数据分析
导读:在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。
Spark学习技巧
2022-03-14
1.3K
0
三万字长文 | Spark性能优化实战手册
spark
数据库
大数据
数据分析
数据结构
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。
Spark学习技巧
2022-03-14
748
0
ETL工具算法构建企业级数据仓库五步法
数据库
数据分析
数据处理
编程算法
sql
ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合,得出一致性的数据,然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程。
Spark学习技巧
2022-01-13
1.1K
0
大数据实践:数据指标中心的建设思路
数据分析
做好业务分析的重点在于数据分析师要有良好的专业素养:一方面要有过硬的专业技能、了解业务;另一方面要能够通过合作和协调,让分析策略可以落地并正向影响业务。这篇文章将从数据认知开始,给大家讲讲数据分析和指标体系建设。
Spark学习技巧
2022-01-13
433
0
Hadoop 生态里,为什么 Hive 活下来了?
hive
hadoop
数据库
数据分析
大数据
Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角,当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务:一是查询引擎:负责执行 SQL 语句;二是元存储:负责在 HDFS 中将数据收集虚拟化为表。
Spark学习技巧
2022-01-13
342
0
爱奇艺数据中台建设方案
数据分析
大数据
运维
数据中台更像一种企业架构,是一套结合互联网技术和行业特性,在企业发展的不确定性中,寻找确定性,并且持续沉淀和抽象企业核心能力,最终支持企业快速、高效、低成本进行业务创新和增强的企业架构。
Spark学习技巧
2022-01-12
530
0
浅谈数仓模型(维度建模)
数据库
数据安全
数据分析
sql
数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。
Spark学习技巧
2021-07-27
2K
0
数据本地性对 Spark 生产作业容错能力的负面影响
spark
数据分析
https
node.js
大数据
作者:Kent_Yao 链接:https://www.jianshu.com/p/72ffaa10220
Spark学习技巧
2021-03-29
862
0
数据湖VS数据仓库?湖仓一体了解一下
数据湖
腾讯云数据仓库 TCHouse
数据安全
数据分析
数据处理
导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。
Spark学习技巧
2021-03-11
2.9K
0
大数据开源框架技术汇总
apache
hadoop
开源
spark
数据分析
Hadoop:Apache Hadoop是一个开源的分布式系统基础框架,离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch,Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推出,2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进,它将服务器与普通硬盘驱动器结合,并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表,形了成完整的生态圈,已经成为事实上的大数据标准,开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。Hadoop3.0以后的版本对MR做了大量优化,增加了基于内存计算模型,提高了计算效率。比较普及的稳定版本是2.x,目前最新版本为3.2.0。
Spark学习技巧
2021-03-05
2.1K
0
美团外卖离线数仓建设实践
数据脱敏
数据集成
数据安全
数据分析
导读:美团外卖数据仓库主要是收集各种用户终端业务、行为数据,通过统一口径加工处理,通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门,支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程,在发展过程中碰到的痛点问题,以及针对痛点做的一系列优化解决方案。
Spark学习技巧
2021-03-05
1.4K
0
数据冷热分离技术
Elasticsearch Service
数据迁移
数据分析
数据库
来源:https://blog.csdn.net/zwgdft/article/details/106291463
Spark学习技巧
2021-03-05
3.7K
0
数据仓库系统建设中的工作流及优化
任务调度
数据库
数据分析
数据结构
sql
导读:随着 IT 时代步入到 DT 时代,从数据中挖掘价值已经变得越来越重要。数据仓库系统长期以来一直是企业 IT 架构的重要组成部分,并且逐步与大数据等技术相融合,已然成为建设数据文化的智慧型企业的必然措施。
Spark学习技巧
2021-03-05
601
0
同样是服务注册中心,Eureka为什么比ZooKeeper优秀?
zookeeper
分布式
缓存
数据分析
服务注册中心,给客户端提供可供调用的服务列表,客户端在进行远程服务调用时,根据服务列表然后选择服务提供方的服务地址进行服务调用。服务注册中心在分布式系统中大量应用,是分布式系统中不可或缺的组件,例如rocketmq的name server,hdfs中的namenode,dubbo中的zk注册中心,spring cloud中的服务注册中心eureka。
Spark学习技巧
2021-03-05
1.1K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档