首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏成员
810
文章
1301808
阅读量
248
订阅数
一文了解 ClickHouse 的向量化执行
ClickHouse在计算层做了非常细致的工作,竭尽所能榨干硬件能力,提升查询速度。它实现了单机多核并行、分布式计算、向量化执行与SIMD指令、代码生成等多种重要技术。
Spark学习技巧
2021-07-02
6.3K0
数据本地性对 Spark 生产作业容错能力的负面影响
作者:Kent_Yao 链接:https://www.jianshu.com/p/72ffaa10220
Spark学习技巧
2021-03-29
8610
分布式ID生成方案
不管我们是不是有身份的人,我们一定是有身份证的人,身份证上面的号码就是我们的ID,理论上这个ID是全国唯一的,而且通过这个号码,我们还可以得到一些个人信息,比如前两位可以确定我们第一次申请身份证的时候所在的省份、接下来的四位可以确定我们所在的区县,然后还可以知道我们出生的年月以及性别。
Spark学习技巧
2021-03-05
7520
大数据平台是否更应该容器化?
作者颜卫,腾讯高级后台开发工程师,专注于Kubernetes大规模集群管理和资源调度,有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。
Spark学习技巧
2021-03-05
3K1
丁香园推荐系统实战
推荐系统可以说是一个闭环的生态系统了。从整体架构图中,我们就可以看出来,推荐列表从RankServer产生,用户点击推荐列表产生的日志又反作用于画像系统的更新,模型训练,新的推荐算法的实验,以及BI报表的生产,而这些又都是RankServer依赖的模块。
Spark学习技巧
2021-03-05
6910
实战 Prometheus 搭建监控系统
Prometheus 是一款基于时序数据库的开源监控告警系统,说起 Prometheus 则不得不提 SoundCloud,这是一个在线音乐分享的平台,类似于做视频分享的 YouTube,由于他们在微服务架构的道路上越走越远,出现了成百上千的服务,使用传统的监控系统 StatsD 和 Graphite 存在大量的局限性,于是他们在 2012 年开始着手开发一套全新的监控系统。Prometheus 的原作者是 Matt T. Proud,他也是在 2012 年加入 SoundCloud 的,实际上,在加入 SoundCloud 之前,Matt 一直就职于 Google,他从 Google 的集群管理器 Borg 和它的监控系统 Borgmon 中获取灵感,开发了开源的监控系统 Prometheus,和 Google 的很多项目一样,使用的编程语言是 Go。
Spark学习技巧
2021-03-05
1.2K0
浅谈 RESTful API
全称:REST,全称是Resource Representational State Transfer,即:URL定位资源,用HTTP动词(GET,POST,DELETE,DETC)描述操作。
Spark学习技巧
2021-02-12
9810
基于Canal与Flink实现数据实时增量同步(一)
canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。
Spark学习技巧
2020-09-08
2.4K0
基于 Apache Flink 和规则引擎的实时风控解决方案 ​
对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。
Spark学习技巧
2019-10-21
5.3K0
和 Python 2.x 说再见!
在技术的长河中,软件、工具、系统等版本的迭代本是常事,但由于使用习惯、版本的兼容性、易用性等因素,很多用户及开发者在使用或做开发的过程中,并不愿意及时同步更新,而这无疑为 IT 技术圈带来了诸多碎片化问题,正如系统之 Android、Windows,也正如编程语言之 Python。
Spark学习技巧
2019-09-04
4950
震惊,用了这么多年的 CPU 利用率,其实是错的
http://www.brendangregg.com/blog/2017-05-09/cpu-utilization-is-wrong.html
Spark学习技巧
2019-08-01
1.1K0
20个安全可靠的免费数据源,各领域数据任你挑
本文作者列出了 20 种被广泛认可的免费数据源,其中信息涵盖天文地理、政法医经等,可以说是很全面了。不过数据源中的大部分数据集都采集的美国信息,也有少部分是关于其他国家或全球的,大家尽可从中筛选自己需要的数据集。
Spark学习技巧
2019-05-21
5110
你可能不太会用的 10 个 Git 命令
本文讨论的是开发人员、数据科学家或产品经理应该了解的各种 Git 命令。我们将了解该如何用 Git 进行检查、删除和整理操作。我们还将介绍如何用 Bash 别名和 Git 编辑器配置来逃避 Vim 以节省时间。
Spark学习技巧
2019-05-16
9540
Hbase Rowkey设计及索引
开头,先功夫一个好消息,浪尖的微信公众号支持内容搜索了,入口请点击原文阅读。 https://data.newrank.cn/m/s.html?s=PSkwPS48MT87 也可以去菜单栏,点击进入入
Spark学习技巧
2018-12-14
6040
mysql数据库开发常见问题及优化
原文:https://mp.weixin.qq.com/s/SURmi4cGBjfEfn7JsrZZLA
Spark学习技巧
2018-08-20
5950
重磅发布:Kafka迎来1.0.0版本,正式告别四位数版本号
Kafka 从首次发布之日起,已经走过了七个年头。从最开始的大规模消息系统,发展成为功能完善的分布式流式处理平台,用于发布和订阅、存储及实时地处理大规模流数据。来自世界各地的数千家公司在使用 Kafka,包括三分之一的 500 强公司。Kafka 以稳健的步伐向前迈进,首先加入了复制功能和无边界的键值数据存储,接着推出了用于集成外部存储系统的 Connect API,后又推出了为实时应用和事件驱动应用提供原生流式处理能力的 Streams API,并于今年春季开始支持仅一次处理语义。如此广泛的应用和完备的功
Spark学习技巧
2018-01-31
1K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档