Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1302121

阅读量

248

订阅数

不好意思，ELK 该换了！

日志网站 elk request 配置

最近客户有个新需求，就是想查看网站的访问情况，由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的页面，咱也做不到

Spark学习技巧

2024-03-26

1160

为什么数据库连接池不采用IO多路复用？

自动驾驶网站容器 jdbc java

这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用 DB 时，还是经常性采用c3p0，tomcat connection pool等技术来与 DB 连接，哪怕整个程序已经变成以Netty为核心。这到底是为什么？

Spark学习技巧

2022-03-14

6730

Impala在网易大数据的优化和实践

云数据库 SQL Server 网站 hive 缓存 sql

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享下Impala在网易大数据的优化和实践。

Spark学习技巧

2021-03-05

1.4K0

java实操｜mysql数据增量同步到kafka

kafka 消息队列 CMQ 版数据库云数据库 SQL Server 网站

生产中由于历史原因web后端，mysql集群，kafka集群(或者其它消息队列)会存在一下三种结构。

Spark学习技巧

2021-03-05

2.3K0

Apache Kylin 在中通快递的实践

apache 网站 hbase TDSQL MySQL 版 api

Apache Kylin 在中通是如何落地的，又是怎样赋能中通快递实现 OLAP 分析能力起飞的？本文从多方面对比了 Presto 和 Kylin 的优缺点，并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。

Spark学习技巧

2021-03-05

8190

百亿级图数据JanusGraph迁移之旅

数据结构 hbase TDSQL MySQL 版 spark 网站

目前我们的图数据库数据量为顶点 20 亿，边 200 亿的规模。在迁移之前我们使用的 AgensGraph 数据库一个主库四个备库，机器的配置都比较高，256G 内存 SSD 的磁盘，单机数据量为 3T左右。在数据量比较小的情况下 AgensGraph 表现非常稳定优异，我们之前一主一备的情况下支撑了很长一段时间。但随着公司业务的急速发展，图越来越大，占用的磁盘越来越多，对应的查询量也越来越大，随之这种方案的问题就暴露出来了

Spark学习技巧

2020-10-10

2.6K0

图数据库调研

数据结构网站数据加密服务存储编程算法

注意，这里只是说了通过提供类似图的语义查询功能，并没有规定图的存储结构。图数据库的主要优点：

Spark学习技巧

2020-09-27

6.6K0

Gremlin 图查询概述

网站数据结构数据库存储编程算法

图形数据库是 NoSQL 数据库的一种类型，它应用图形理论存储实体之间的关系信息。最常见的例子，就是社会网络中人与人之间的关系。关系型数据库用于存储关系型数据的效果并不好，其查询复杂、缓慢、超出预期，而图形数据库的独特设计恰恰弥补了这个缺陷。Google的图形计算系统名为 Pregel。

Spark学习技巧

2020-09-08

4K0

社区版本idea查看继承关系的骚操作

编程算法 ide 面向对象编程 uml 网站

大家都会被idea 的专业版注册码随时被禁，而且费用过高而困扰。浪尖一直都是用的社区版本，很多粉丝留言说社区版本没办法利用uml查看类的继承关系，今天浪尖就给大家分享一个适用于社区版本idea 的插件，很炫酷的查看类的继承关系，名字叫做 code iris。

Spark学习技巧

2020-07-03

2.8K0

spark on yarn 内存分配详解

linux spark yarn node.js 网站

最近有不少知识星球粉丝和公众号粉丝给浪尖留言，说是不知道spark on yarn的时候，yarn如何分配Spark 的driver和executor内存的。今天浪尖就给大家分享一下spark on yarn，内存分配原理。

Spark学习技巧

2020-04-27

2.2K0

通过源码分析Producer性能瓶颈

网站 kafka 消息队列 CMQ 版

本文，kafka源码是以0.8.2.2，虽然版本相对比较老，但是阅读还是很有必要的。主要是java的kafka生产者源码，Broker接收到producer请求之后处理的相关源码。估计源码内容是比较多的，只给出大致逻辑，主类和函数名称。本文的目的是让大家，彻底了解发送消息到kafka的过程及如何对producer进行调优。没耐心的小伙伴底部总结可以直接阅读。

Spark学习技巧

2019-07-09

5780

20个安全可靠的免费数据源，各领域数据任你挑

https 网络安全 go 网站

本文作者列出了 20 种被广泛认可的免费数据源，其中信息涵盖天文地理、政法医经等，可以说是很全面了。不过数据源中的大部分数据集都采集的美国信息，也有少部分是关于其他国家或全球的，大家尽可从中筛选自己需要的数据集。

Spark学习技巧

2019-05-21

5110

开发人员不得不知的MySQL索引和查询优化

sql server sql 数据库云数据库 SQL Server 网站

本文主要总结了工作中一些常用的操作及不合理的操作，在对慢查询进行优化时收集的一些有用的资料和信息，本文适合有 MySQL 基础的开发人员。

Spark学习技巧

2019-05-09

7760

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态