腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Spark学习技巧
本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏成员
举报
810
文章
1303563
阅读量
248
订阅数
订阅专栏
申请加入专栏
全部文章(810)
spark(162)
大数据(156)
sql(131)
数据库(123)
编程算法(122)
java(101)
kafka(57)
数据分析(54)
存储(52)
其他(51)
分布式(45)
hive(45)
flink(45)
缓存(44)
云数据库 SQL Server(43)
hbase(41)
apache(39)
node.js(36)
api(35)
hadoop(30)
数据结构(29)
数据处理(28)
http(24)
ide(23)
linux(21)
zookeeper(21)
scala(20)
云数据库 Redis(20)
机器学习(19)
文件存储(19)
TDSQL MySQL 版(19)
jvm(19)
https(16)
数据(15)
开源(14)
网站(13)
网络安全(13)
windows(13)
mapreduce(12)
jdk(12)
javascript(11)
bash(11)
数据安全(11)
yarn(11)
运维(11)
数据湖(11)
企业(10)
Elasticsearch Service(10)
html(9)
json(9)
unix(9)
神经网络(9)
深度学习(9)
日志数据(9)
hashmap(9)
云计算(9)
打包(8)
git(8)
消息队列 CMQ 版(8)
系统架构(8)
maven(7)
人工智能(7)
安全(7)
php(6)
python(6)
bash 指令(6)
知识图谱(6)
腾讯云测试服务(6)
数据迁移(6)
推荐系统(6)
实时数仓(6)
数据挖掘(5)
xml(5)
jquery(5)
jar(5)
批量计算(5)
容器(5)
面向对象编程(5)
rpc(5)
rabbitmq(5)
设计(5)
数据仓库(5)
自动驾驶(4)
android(4)
搜索引擎(4)
spring(4)
mongodb(4)
电商(4)
tcp/ip(4)
微信(4)
微服务(4)
数据集成(4)
app(4)
join(4)
框架(4)
模型(4)
区块链(3)
go(3)
eclipse(3)
github(3)
全文检索(3)
容器镜像服务(3)
serverless(3)
自动化(3)
压力测试(3)
uml(3)
数据可视化(3)
架构设计(3)
任务调度(3)
bug(3)
key(3)
mysql(3)
offset(3)
partition(3)
ps(3)
产品(3)
管理(3)
函数(3)
架构(3)
流量(3)
排序(3)
日志(3)
异常(3)
官方文档(2)
NLP 服务(2)
c++(2)
c#(2)
ruby(2)
lua(2)
单片机(2)
postgresql(2)
nginx(2)
访问管理(2)
云数据库 MongoDB(2)
消息队列 CKafka 版(2)
大数据解决方案(2)
kubernetes(2)
无人驾驶(2)
ssh(2)
卷积神经网络(2)
erp(2)
jdbc(2)
二叉树(2)
aop(2)
processing(2)
sdk(2)
实时监控(2)
学习方法(2)
数据库管理(2)
数据脱敏(2)
bi(2)
date(2)
hdfs(2)
null(2)
shuffle(2)
测试(2)
程序(2)
程序员(2)
服务(2)
链表(2)
内存(2)
配置(2)
入门(2)
实践(2)
系统(2)
原理(2)
费用中心(1)
负载均衡(1)
比特币(1)
tensorflow(1)
ios(1)
objective-c(1)
c 语言(1)
actionscript(1)
css(1)
ajax(1)
sqlite(1)
nosql(1)
memcached(1)
access(1)
mvc(1)
svn(1)
struts(1)
tomcat(1)
中文分词(1)
lucene/solr(1)
analyzer(1)
负载均衡缓存(1)
tornado(1)
GPU 云服务器(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
云直播(1)
短视频(1)
腾讯云可观测平台(1)
SSL 证书(1)
数据加密服务(1)
腾讯git代码托管(工蜂)(1)
数据备份(1)
express(1)
rollup.js(1)
游戏(1)
互联网金融(1)
爬虫(1)
正则表达式(1)
mybatis(1)
sql server(1)
opencv(1)
自动化测试(1)
kotlin(1)
scrapy(1)
dubbo(1)
ddos(1)
udp(1)
kernel(1)
socket编程(1)
无监督学习(1)
nat(1)
nest(1)
视频分析(1)
flutter(1)
风控平台(1)
安全运营平台(1)
特征工程(1)
unicode(1)
迁移(1)
groovy(1)
功能测试(1)
性能测试(1)
es(1)
实时数据集成(1)
事件总线(1)
腾讯云数据仓库 TCHouse(1)
数据湖分析(1)
智能推荐平台(1)
教育(1)
数据库审计(1)
class(1)
cpu(1)
data(1)
decimal(1)
dump(1)
elk(1)
event(1)
exists(1)
final(1)
flume(1)
foreach(1)
for循环(1)
frequency(1)
function(1)
gc(1)
google(1)
gson(1)
initialization(1)
ip(1)
it(1)
jackson(1)
java8(1)
lambda(1)
list(1)
map(1)
message(1)
overflow(1)
public(1)
push(1)
quartz(1)
rank(1)
redis(1)
request(1)
return(1)
select(1)
server(1)
sqoop(1)
stack(1)
static(1)
streaming(1)
string(1)
stringbuilder(1)
subquery(1)
thrift(1)
web(1)
报表(1)
闭包(1)
变量(1)
编译(1)
边缘计算(1)
创业(1)
磁盘(1)
单例模式(1)
登录(1)
多线程(1)
工具(1)
工作(1)
行业(1)
混合云(1)
集合(1)
技巧(1)
集群(1)
监控(1)
解决方案(1)
开发(1)
面试(1)
生命周期(1)
事件(1)
实时计算(1)
事务(1)
数据管理(1)
同步(1)
统计(1)
网关(1)
线程池(1)
效率(1)
协议(1)
性能(1)
性能监控(1)
性能优化(1)
异步编程(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
Java几种常用 JSON 库性能比较,哪家最强?
java
json
api
gson
jackson
链接:https://xncoding.com/2018/01/09/java/jsons.html
Spark学习技巧
2023-03-21
739
0
Spark DataSource API v2 版本对比 v1有哪些改进?
api
java
python
spark
scala
1. 由于其输入参数包括 DataFrame / SQLContext,因此 DataSource API 兼容性取决于这些上层的 API。
Spark学习技巧
2022-04-18
879
0
Kafka 3.0重磅发布,弃用 Java 8 的支持!
kafka
tcp/ip
api
apache
java
Kafka 具有四个核心 API,借助这些 API,Kafka 可以用于以下两大类应用:
Spark学习技巧
2022-01-13
2.2K
0
为什么以及如何升级至 Java 16 或 17
jdk
java
maven
api
容器镜像服务
在 2021 年 4 月 27 日的 InfoQ 直播中,我探讨了为什么应该考虑升级到 Java 16 或 Java 17(一旦发布),并就如何完成升级提供了一些实用的建议。
Spark学习技巧
2022-01-13
1.3K
0
Kafka Connect | 无缝结合Kafka构建高效ETL方案
kafka
编程算法
api
分布式
node.js
Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能。可以很简单的快速定义 connectors 将大量数据从 Kafka 移入和移出. Kafka Connect 可以摄取数据库数据或者收集应用程序的 metrics 存储到 Kafka topics,使得数据可以用于低延迟的流处理。一个导出的 job 可以将来自 Kafka topic 的数据传输到二级存储,用于系统查询或者批量进行离线分析。
Spark学习技巧
2021-08-25
1.2K
0
3.数据湖deltalake之时间旅行及版本管理
api
python
unix
浪尖在deltalake第一讲的时候说过,它支持数据版本管理和时间旅行:提供了数据快照,使开发人员能够访问和还原早期版本的数据以进行审核、回滚或重新计算。
Spark学习技巧
2021-03-05
991
0
分布式图数据库在贝壳的应用实践
api
数据结构
知识图谱
存储
导读:你想知道百亿级图谱如何实现毫秒级查询吗?社区众多的图数据库中如何才能挑选到一款适合实际应用场景的图数据库呢?贝壳找房的行业图谱480亿量级的三元组究竟是如何存储的呢?本文将带你探索上述问题并从中得到解答。本次分享题目为"分布式图数据库在贝壳找房的应用实践",共分为以下五大块内容:
Spark学习技巧
2021-03-05
1.2K
0
大数据平台监控告警系统的实现
api
分布式
系统架构
tornado
数据库
本次演讲将会一步步地,向大家展示我们这个系统架构。 由于时间有限,我不会深入讲解技术细节(事实上我一开始做好、发给Sting的ppt有多达40页现在精简到20多页)。 我希望达到的效果是--
Spark学习技巧
2021-03-05
2.1K
0
Apache Kylin 在中通快递的实践
apache
网站
hbase
TDSQL MySQL 版
api
Apache Kylin 在中通是如何落地的,又是怎样赋能中通快递实现 OLAP 分析能力起飞的?本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。
Spark学习技巧
2021-03-05
819
0
浅谈 RESTful API
http
https
网络安全
php
api
全称:REST,全称是Resource Representational State Transfer,即:URL定位资源,用HTTP动词(GET,POST,DELETE,DETC)描述操作。
Spark学习技巧
2021-02-12
983
0
从Druid到ClickHouse | eBay广告平台数据OLAP实战
数据分析
数据处理
api
spark
数据库
本文介绍eBay广告数据平台的基本情况,并对比分析了ClickHouse与Druid的使用特点。基于ClickHouse表现出的良好性能和扩展能力,本文介绍了如何将eBay广告系统从Druid迁移至ClickHouse,希望能为同业人员带来一定的启发。
Spark学习技巧
2020-12-28
1.6K
0
Flink通过异步IO实现redis维表join
大数据
数据库
云数据库 Redis
api
云数据库 SQL Server
使用flink做实时数仓的公司越来越多了,浪尖这边也是很早就开发了一个flink 全sql平台来实现实时数仓的功能。说到实时数仓,两个表的概念大家一定会知道的:事实表和维表。
Spark学习技巧
2019-12-27
3.5K
0
Thrift or gRPC ?Alluxio RPC框架的深度实践总结
rpc
api
数据结构
java
编程算法
作为Alluxio 2.0发布版本的一部分,我们将RPC框架从Apache Thrift(见文末链接1)变为gRPC(见文末链接2)。在本文中,我们将讨论这一变化背后的原因以及我们在此过程中学到的一些经验。
Spark学习技巧
2019-07-22
3.6K
0
spark jobserver源码导读
spark
api
最近有人问浪尖,想读一个比较大的spark项目源码,问浪尖要,浪尖只能告诉你业务相关的是基本上不会有人开源,平台相关的源码就比较多了,浪尖比较推荐的是Spark JobServer相关的源码。改源码量比较小,而且是关于Spark API的非常适合大家去阅读,以便于帮助大家更加深刻的理解spark API的使用及运行原理相关的内容。
Spark学习技巧
2019-07-05
912
0
终于有人把 Elasticsearch 原理讲透了!
Elasticsearch Service
分布式
搜索引擎
机器学习
api
搜索是现代软件必备的一项基础功能,而 Elasticsearch 就是一款功能强大的开源分布式搜索与数据分析引擎。
Spark学习技巧
2019-06-28
1.3K
0
经过性能对比,我发现温少的FastJson真牛。
json
api
文件存储
java
JSON不管是在Web开发还是服务器开发中是相当常见的数据传输格式,一般情况我们对于JSON解析构造的性能并不需要过于关心,除非是在性能要求比较高的系统。
Spark学习技巧
2019-06-18
6.6K
0
JDK中几个错误的调用方式
jdk
api
json
http
打包
如果两个变量中间隔了比较长的其它代码,很可能会导致开发人员将两者混淆,导致逻辑认知错误,从而写出或改出有问题的代码。
Spark学习技巧
2019-06-18
1.3K
0
基于Alluxio系统的Spark DataFrame高效存储管理技术
python
spark
缓存
存储
api
越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理,提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中,从而将Spark streaming作业的平均性能提升了15倍,峰值甚至达到300倍左右。在未使用Alluxio之前,他们发现生产环境中的一些Spark作业会变慢甚至无法完成。而在采用Alluxio后这些作业可以很快地完成。在这篇文章中,我们将介绍如何使用Alluxio帮助Spark变得更高效,具体地,我们将展示如何使用Alluxio高效存储Spark DataFrame。
Spark学习技巧
2019-05-09
1.1K
0
最常见的Kafka面试题及答案
kafka
zookeeper
apache
api
本文为您盘点最常见的Kafka面试题,同时也是对Apache Kafka初学者必备知识点的一个整理与介绍。
Spark学习技巧
2019-05-09
1.6K
0
扩展RDD API三部曲第一部回顾基础
api
1 - A list of partitions 2 - A function for computing each split 3 - A list of dependencies on other RDDs 4 - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) 5 - Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
Spark学习技巧
2018-12-26
505
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档