腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Spark学习技巧
本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
举报
810
文章
1220097
阅读量
247
订阅数
订阅专栏
申请加入专栏
全部文章
spark
大数据
sql
数据库
编程算法
java
kafka
数据分析
存储
其他
分布式
hive
flink
缓存
云数据库 SQL Server
hbase
apache
node.js
api
hadoop
数据结构
数据处理
http
ide
linux
zookeeper
scala
云数据库 Redis
机器学习
文件存储
TDSQL MySQL 版
jvm
https
数据
开源
网站
网络安全
windows
mapreduce
jdk
javascript
bash
数据安全
yarn
运维
数据湖
企业
Elasticsearch Service
html
json
unix
神经网络
深度学习
日志数据
hashmap
云计算
打包
git
消息队列 CMQ 版
系统架构
maven
人工智能
安全
php
python
bash 指令
知识图谱
腾讯云测试服务
数据迁移
推荐系统
实时数仓
数据挖掘
xml
jquery
jar
批量计算
容器
面向对象编程
rpc
rabbitmq
设计
数据仓库
自动驾驶
android
搜索引擎
spring
mongodb
电商
tcp/ip
微信
微服务
数据集成
app
join
框架
模型
区块链
go
eclipse
github
全文检索
容器镜像服务
serverless
自动化
压力测试
uml
数据可视化
架构设计
任务调度
bug
key
mysql
offset
partition
ps
产品
管理
函数
架构
流量
排序
日志
异常
官方文档
NLP 服务
c++
c#
ruby
lua
单片机
postgresql
nginx
访问管理
云数据库 MongoDB
消息队列 CKafka 版
大数据解决方案
kubernetes
无人驾驶
ssh
卷积神经网络
erp
jdbc
二叉树
aop
processing
sdk
实时监控
学习方法
数据库管理
数据脱敏
bi
date
hdfs
null
shuffle
测试
程序
程序员
服务
链表
内存
配置
入门
实践
系统
原理
费用中心
负载均衡
比特币
tensorflow
ios
objective-c
c 语言
actionscript
css
ajax
sqlite
nosql
memcached
access
mvc
svn
struts
tomcat
中文分词
lucene/solr
analyzer
负载均衡缓存
tornado
GPU 云服务器
专用宿主机
云数据迁移
日志服务
云直播
短视频
腾讯云可观测平台
SSL 证书
数据加密服务
腾讯git代码托管(工蜂)
数据备份
express
rollup.js
游戏
互联网金融
爬虫
正则表达式
mybatis
sql server
opencv
自动化测试
kotlin
scrapy
dubbo
ddos
udp
kernel
socket编程
无监督学习
nat
nest
视频分析
flutter
风控平台
安全运营平台
特征工程
unicode
迁移
groovy
功能测试
性能测试
es
实时数据集成
事件总线
腾讯云数据仓库 TCHouse
数据湖分析
智能推荐平台
教育
数据库审计
class
cpu
data
decimal
dump
elk
event
exists
final
flume
foreach
for循环
frequency
function
gc
google
gson
initialization
ip
it
jackson
java8
lambda
list
map
message
overflow
public
push
quartz
rank
redis
request
return
select
server
sqoop
stack
static
streaming
string
stringbuilder
subquery
thrift
web
报表
闭包
变量
编译
边缘计算
创业
磁盘
单例模式
登录
多线程
工具
工作
行业
混合云
集合
技巧
集群
监控
解决方案
开发
面试
生命周期
事件
实时计算
事务
数据管理
同步
统计
网关
线程池
效率
协议
性能
性能监控
性能优化
异步编程
中间件
字符串
搜索文章
搜索
搜索
关闭
HiveSQL分析函数实践详解
数据
函数
框架
排序
实践
窗口函数也称为OLAP函数,OLAP 是OnLine Analytical Processing 的简称,意思是对数据库数据进行实时分析处理。例如,市场分析、创建财务报表、创建计划等日常性商务工作。窗口函数就是为了实现OLAP 而添加的标准SQL 功能。
Spark学习技巧
2024-04-12
123
0
15张架构图,详解数据中台建设框架!
系统
企业
管理
框架
数据
《DAMA数据管理知识体系指南》对企业的数据管理成熟度定义了6个层级,分别为:0级-无能力、1级-初始或临时级、2级-可重复级、3级-已定义级、4级-已管理级、5级-优化级,级别越高数据管理越成熟。对于前期缺少数据管理经验的企业,在无数据专家或数据顾问公司支撑的情况下,容易导致以下的问题:
Spark学习技巧
2024-04-12
104
0
闭包在Scala中的含义,使用场景和各个场景的代码案例
异步编程
scala
闭包
变量
函数
在 Scala 中,闭包是一种函数,它可以捕获并使用其作用域之外定义的变量。闭包由两部分组成:一个函数,以及该函数引用的外部变量的环境。这意味着即使外部变量的作用域已经结束,闭包依然可以访问和操作这些变量。
Spark学习技巧
2024-04-12
101
0
JMH + Arthas,性能监控的神器
测试
程序
日志
性能
性能监控
为了能够让我后面的实例能够贯穿这两个工具的使用,我首先简单描述下我们在开发中遇到的实际的性能问题。然后再引出这两个性能工具的实际使用,看我们如何使用这两个工具成功定位到性能瓶颈的。
Spark学习技巧
2024-04-12
77
0
Kafka 3.3 使用 KRaft 共识协议替代 ZooKeeper
zookeeper
kafka
迁移
集群
协议
Apache 软件基金会发布了包含许多新特性和改进的 Kafka 3.3.1。这是第一个标志着可以在生产环境中使用KRaft(Kafka Raft)共识协议的版本。在几年的开发过程中,它先是在 Kafka 2.8 早期访问版本中发布,然后又在 Kafka 3.0 预览版本中发布。
Spark学习技巧
2024-04-12
101
0
hive面试必备题
存储
hive
函数
面试
数据
Hive存储的是逻辑上的数据仓库信息,包括表的定义、数据的存储位置(HDFS路径)、分区和表的元数据等。实际的数据文件存储在HDFS上,Hive通过HQL(Hive Query Language)实现对这些数据的SQL-like查询,本质上是将SQL查询转换为MapReduce任务在Hadoop上执行。
Spark学习技巧
2024-04-12
90
0
javaer 为什么称redis、rabbitmq这些东西为中间件?
中间件
rabbitmq
redis
服务
系统
中间件(Middleware)是位于客户端和服务器端之间的软件服务层,它提供了一种通用服务的方式,帮助不同的应用程序、系统组件和服务之间进行交互和数据交换。中间件隐藏了底层的复杂性,使得开发者可以专注于业务逻辑的实现,而不需要从头构建底层的通信、数据管理等机制。Redis、RabbitMQ 等被称为中间件,是因为它们为应用程序提供了特定的服务(如数据存储、消息队列),从而充当了应用程序和底层系统之间的“中间人”。
Spark学习技巧
2024-04-12
95
0
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比
flume
sqoop
数据
同步
flink
Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。
Spark学习技巧
2024-03-27
236
0
为什么 IDEA 建议去掉 StringBuilder,而要使用 “+” 拼接字符串?
编译
测试
效率
字符串
stringbuilder
虽然有差异,但是差异极小,考虑到执行了100000次,每次耗时的差异就更小了,而且程序执行有各种因素影响执行效率,可以认为耗时差不多。也可以多次执行对比耗时差异,也可以发现基本一致。
Spark学习技巧
2024-03-27
69
0
不好意思,ELK 该换了!
日志
网站
elk
request
配置
最近客户有个新需求,就是想查看网站的访问情况,由于网站没有做google的统计和百度的统计,所以访问情况,只能通过日志查看,通过脚本的形式给客户导出也不太实际,给客户写个简单的页面,咱也做不到
Spark学习技巧
2024-03-26
76
0
Flink在涂鸦防护体系中的应用
flink
登录
框架
数据
统计
随着互联网的快速发展,数据量呈爆炸性增长,安全分析领域面临着前所未有的挑战。传统的安全分析方法在处理海量数据时显得力不从心,无法满足实时、高效的需求。为了解决这一问题,Flink作为一种实时数据处理框架,逐渐在安全分析领域崭露头角。本文将基于涂鸦SOC平台建设经验浅谈Flink在安全分析领域的应用。
Spark学习技巧
2024-02-22
64
0
4000字读懂实时数仓的过去现在和未来(建议收藏)
实时数仓
架构
数据
数据仓库
企业
1991年,比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。
Spark学习技巧
2024-02-01
223
0
深入讲解四种数仓建模理论方法
数据库
工具
模型
设计
数据
数据仓库的建设的最重要的核心核心之一就是数仓模型的设计和构建,这个决定了数仓的复用和性能,本文将介绍四种建模的理论:维度建模、关系建模、Data Vault建模、Anchor模型建模,文后也介绍几种常见的数仓建模工具。
Spark学习技巧
2024-01-26
480
0
Spark+Celeborn:更快,更稳,更弹性
存储
spark
内存
设计
数据
Apache Spark 是广为流行的大数据处理引擎,它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的 RDD 抽象,RDD 血缘通过两种依赖关系描述,窄依赖和宽依赖。其中宽依赖是支撑复杂算子(Join, Agg 等)的关键,而宽依赖实现机制就是 Shuffle。
Spark学习技巧
2024-01-22
222
0
12条SQL不起眼的数仓调优技巧
数据
sql
技巧
解决方案
排序
本文是作者本人做数仓调优时,所经常使用的SQL调优技巧,这些“技巧”也是经过日常不断摸索、问题排查以及网络检索并且经过本人在线上大规模使用过的,对于下面这12条(不算多,但特别有用)调优小“技巧”,希望能帮助阅读本文的同学能够在日常编写分析语句时,提升任务执行的效率。
Spark学习技巧
2024-01-15
242
0
FlinkCEP - Flink的复杂事件处理
flink
event
public
监控
事件
FlinkCEP是在Flink上层实现的复杂事件处理库。 它可以让你在无限事件流中检测出特定的事件模型,有机会掌握数据中重要的那部分。
Spark学习技巧
2023-12-05
187
0
万字Spark性能优化宝典(收藏版)
spark
磁盘
内存
数据
性能优化
导读:发现一篇好文,分享给大家。全文分为四个部分,基本涵盖了所有Spark优化的点,面试和实际工作中必备。全文较长,建议收藏后PC端查看或工作中问题troubleshooting。
Spark学习技巧
2023-12-04
485
0
一文讲透如何做数据分析和指标体系
数据分析
产品
服务
模型
数据
本文内容基于自己从事支付领域从0到1搭建支付业务数据分析实战经验。如果你对写代码念念不忘,可以看我的历史文章,有很多代码相关的内容。
Spark学习技巧
2023-12-01
425
0
详解数据仓库之拉链表(原理、设计以及在Hive中的实现)
hive
链表
设计
数据仓库
原理
最近发现一本好书,读完感觉讲的非常好,首先安利给大家,国内第一本系统讲解数据血缘的书!点赞!
Spark学习技巧
2023-11-13
338
0
用户增长常见分析模型
企业
产品
模型
生命周期
数据
用户增长基本上会涉及生意场上的各行各业,你开个店面希望有更多的客户光顾,你做了个APP希望有更多的用户经常使用,你搭建了个电商平台希望有更多的人下单买东西。
Spark学习技巧
2023-10-07
459
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档