Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
440 篇文章
139 人订阅

全部文章

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

spark分析网吧同行朋友思路

你好,我们现在正好遇到一个spark的问题。 在mysql库中有2.5kw网吧轨迹数据, 需要计算同行关系:计算两人在相同网吧十分钟前后上下网三次及以上 (如:...

121
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

数据本地性带来的锅~

健身回来的路上,看到微信群里聊技术,一群有问了一个神奇的问题,具体可以看如下截图:

273
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

这样配置你的IDEA工作效率提高好几倍!

链接 | blog.csdn.net/fly910905/article/details/77868300

883
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

深度复盘GitHub发展史:如何在短短10年内改变了人们的编程方式

2018年10月份,微软以75亿美元的价格收购GitHub,引发了科技行业的关注。在短短的10年内,GitHub 改变了人们的编程方式。不仅让编程变得更简单,还...

672
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

ElasticSearch写入数据的工作原理是什么?

es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?底层的 lucene 介绍一下呗?倒排索引了解吗?

591
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

用了这么久的数据库连接池,你知道原理吗?

这次我们采取技术演进的方式来谈谈数据库连接池的技术出现过程及其原理,以及当下最流行的开源数据库连接池jar包。

732
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

这几个错误的SQL写法,你不会还在用吧?

分页查询是最常用的场景之一,但也通常也是最容易出问题的地方。比如对于下面简单的语句,一般 DBA 想到的办法是在 type, name, create_time...

912
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

企业如何提升数据质量,实现业务增长?

数据是企业最具价值的资产之一,而数据质量则直接影响数据的产出和数据价值的高低。因此,数据质量的管理对于企业决策、战略水平和业绩提升至关重要。今天我们就来聊一聊企...

982
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Kafka的2种日志清理策略感受一下

Kafka是一个基于日志的流处理平台,一个topic可以有多个分区(partition),分区是复制的基本单元,在单节点上,一个分区的数据文件可以存储在多个磁盘...

941
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

大数据(生于2006,卒于2019)已死!

由于关注的重心从我们收集数据的方式转向实时处理数据,大数据时代即将终结。大数据现在是支持多云、机器学习和实时分析这几个新时代的业务资产。

4733
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

面试中有哪些经典的数据库问题?

1、如果我们定义了主键(PRIMARY KEY),那么InnoDB会选择主键作为聚集索引、如果没有显式定义主键,则InnoDB会选择第一个不包含有NULL值的唯...

932
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

大数据分析流程

你是一个在校学生,上着自己喜欢或不喜欢的课,闲来无事,你打开知乎,看到了数据分析话题,你下定决心要成为一个数据分析师,你搞来一堆学习资料和在线课程,看完之后自信...

1672
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

震惊,用了这么多年的 CPU 利用率,其实是错的

http://www.brendangregg.com/blog/2017-05-09/cpu-utilization-is-wrong.html

622
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

spark sql 非业务调优

这个是扯不断,理还乱。建议能加内存就加内存,没事调啥JVM,你都不了解JVM和你的任务数据。默认的参数已经很好了,对于GC算法,spark sql可以尝试一些 ...

1053
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

spark streaming窗口聚合操作后如何管理offset

很多知识星球球友问过浪尖一个问题: 就是spark streaming经过窗口的聚合操作之后,再去管理offset呢?

931
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

这几道Redis面试题都不懂,怎么拿offer?

随着系统访问量的提高,复杂度的提升,响应性能成为一个重点的关注点。而缓存的使用成为一个重点。redis 作为缓存中间件的一个佼佼者,成为了面试必问项目。本文分享...

803
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Thrift or gRPC ?Alluxio RPC框架的深度实践总结

作为Alluxio 2.0发布版本的一部分,我们将RPC框架从Apache Thrift(见文末链接1)变为gRPC(见文末链接2)。在本文中,我们将讨论这一变...

1022
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Structured Streaming的任意状态操作

很多使用案例需要比聚合更高级的状态操作。例如,在很多案例中,你必须跟踪来自于事件数据流的会话操作。为了处理这种会话机制,必须存储任意类型的数据作为状态,同时每次...

1043
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

10件5G能实现但4G不能做的事

一周前,工信部正式向中国电信、中国移动、中国联通、中国广电发放5G商用牌照,这表明中国正式进入了5G商用的阶段。一时间关于5G的讨论更加热烈,那么对于普通用户而...

1083
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

一个可供参考的搜索引擎排序架构实践案例

全球性的搜索引擎 Google,看似简单的搜索框背后隐藏的是极其复杂的系统架构和搜索算法,其中排序(以下统称 Ranking)的架构和算法更是关键部分。Goog...

642

扫码关注云+社区

领取腾讯云代金券