首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏成员
810
文章
1302121
阅读量
248
订阅数
不好意思,ELK 该换了!
最近客户有个新需求,就是想查看网站的访问情况,由于网站没有做google的统计和百度的统计,所以访问情况,只能通过日志查看,通过脚本的形式给客户导出也不太实际,给客户写个简单的页面,咱也做不到
Spark学习技巧
2024-03-26
1160
为什么数据库连接池不采用IO多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用 DB 时,还是经常性采用c3p0,tomcat connection pool等技术来与 DB 连接,哪怕整个程序已经变成以Netty为核心。这到底是为什么?
Spark学习技巧
2022-03-14
6730
Impala在网易大数据的优化和实践
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享下Impala在网易大数据的优化和实践。
Spark学习技巧
2021-03-05
1.4K0
java实操|mysql数据增量同步到kafka
生产中由于历史原因web后端,mysql集群,kafka集群(或者其它消息队列)会存在一下三种结构。
Spark学习技巧
2021-03-05
2.3K0
Apache Kylin 在中通快递的实践
Apache Kylin 在中通是如何落地的,又是怎样赋能中通快递实现 OLAP 分析能力起飞的?本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。
Spark学习技巧
2021-03-05
8190
百亿级图数据JanusGraph迁移之旅
目前我们的图数据库数据量为 顶点 20 亿,边 200 亿的规模。在迁移之前我们使用的 AgensGraph 数据库 一个主库四个备库,机器的配置都比较高,256G 内存 SSD 的磁盘,单机数据量为 3T左右。 在数据量比较小的情况下 AgensGraph 表现非常稳定优异,我们之前一主一备的情况下支撑了很长一段时间。 但随着公司业务的急速发展,图越来越大,占用的磁盘越来越多,对应的查询量也越来越大,随之这种方案的问题就暴露出来了
Spark学习技巧
2020-10-10
2.6K0
图数据库调研
注意,这里只是说了通过 提供类似图的语义查询功能,并没有规定图的存储结构。图数据库的主要优点:
Spark学习技巧
2020-09-27
6.6K0
Gremlin 图查询概述
图形数据库是 NoSQL 数据库的一种类型,它应用图形理论存储实体之间的关系信息。最常见的例子,就是社会网络中人与人之间的关系。关系型数据库用于存储关系型数据的效果并不好,其查询复杂、缓慢、超出预期,而图形数据库的独特设计恰恰弥补了这个缺陷。Google的图形计算系统名为 Pregel。
Spark学习技巧
2020-09-08
4K0
社区版本idea查看继承关系的骚操作
大家都会被idea 的专业版注册码随时被禁,而且费用过高而困扰。浪尖一直都是用的社区版本,很多粉丝留言说社区版本没办法利用uml查看类的继承关系,今天浪尖就给大家分享一个适用于社区版本idea 的插件,很炫酷的查看类的继承关系,名字叫做 code iris。
Spark学习技巧
2020-07-03
2.8K0
spark on yarn 内存分配详解
最近有不少知识星球粉丝和公众号粉丝给浪尖留言,说是不知道spark on yarn的时候,yarn如何分配Spark 的driver和executor内存的。今天浪尖就给大家分享一下spark on yarn,内存分配原理。
Spark学习技巧
2020-04-27
2.2K0
通过源码分析Producer性能瓶颈
本文,kafka源码是以0.8.2.2,虽然版本相对比较老,但是阅读还是很有必要的。主要是java的kafka生产者源码,Broker接收到producer请求之后处理的相关源码。估计源码内容是比较多的,只给出大致逻辑,主类和函数名称。本文的目的是让大家,彻底了解发送消息到kafka的过程及如何对producer进行调优。没耐心的小伙伴底部总结可以直接阅读。
Spark学习技巧
2019-07-09
5780
20个安全可靠的免费数据源,各领域数据任你挑
本文作者列出了 20 种被广泛认可的免费数据源,其中信息涵盖天文地理、政法医经等,可以说是很全面了。不过数据源中的大部分数据集都采集的美国信息,也有少部分是关于其他国家或全球的,大家尽可从中筛选自己需要的数据集。
Spark学习技巧
2019-05-21
5110
开发人员不得不知的MySQL索引和查询优化
本文主要总结了工作中一些常用的操作及不合理的操作,在对慢查询进行优化时收集的一些有用的资料和信息,本文适合有 MySQL 基础的开发人员。
Spark学习技巧
2019-05-09
7760
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档