Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1301775

阅读量

248

订阅数

数据质量监控框架及解决方案总结

apache 大数据开源 python

随着业务发展和数据量的增加，大数据应用开发已成为部门应用开发常用的开发方式，由于部门业务特点的关系，spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时，数据的唯一性、完整性、一致性等等校验就开始受到关注，而通常做法是根据业务特点，额外开发job如报表或者检查任务，这样会比较费时费力。

Spark学习技巧

2022-04-18

1.5K0

一文了解 ClickHouse 的向量化执行

ide https 网络安全单片机开源

ClickHouse在计算层做了非常细致的工作，竭尽所能榨干硬件能力，提升查询速度。它实现了单机多核并行、分布式计算、向量化执行与SIMD指令、代码生成等多种重要技术。

Spark学习技巧

2021-07-02

6.3K0

大数据开源框架技术汇总

apache hadoop 开源 spark 数据分析

Hadoop：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch，Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推出，2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进，它将服务器与普通硬盘驱动器结合，并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表，形了成完整的生态圈，已经成为事实上的大数据标准，开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。Hadoop3.0以后的版本对MR做了大量优化，增加了基于内存计算模型，提高了计算效率。比较普及的稳定版本是2.x，目前最新版本为3.2.0。

Spark学习技巧

2021-03-05

2.1K0

基于 Flink+Iceberg 构建企业级实时数据湖

apache 数据湖数据分析 hive 开源

Apache Flink 是大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时，会碰撞出什么样的火花呢？本次分享主要包括以下核心内容：

Spark学习技巧

2021-03-05

2.1K0

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

数据挖掘开源大数据云数据库 SQL Server 数据分析

☞ 03.OLAP引擎 [ Kylin Druid Presto Impala Kudu ADB ES .. ]

Spark学习技巧

2019-10-08

2.5K0

深度复盘GitHub发展史：如何在短短10年内改变了人们的编程方式

github git 开源腾讯git代码托管（工蜂）

2018年10月份，微软以75亿美元的价格收购GitHub，引发了科技行业的关注。在短短的10年内，GitHub 改变了人们的编程方式。不仅让编程变得更简单，还改变了软件开发者对编程的看法。GitHub是如何做到的呢？我们能从中学到什么？日前，ProductHabits发表了一篇文章，深入研究了 Github 的发展史，呈现了 Github 获取成功的种种因素。

Spark学习技巧

2019-08-19

4510

困扰程序员的30种软件开发问题，你是否时曾相识？

git github 开源

https://www.techug.com/post/30-programmer-meet-problems.html

Spark学习技巧

2019-06-18

4690

mysql数据库开发常见问题及优化

云数据库 SQL Server 数据库 https 开源

原文：https://mp.weixin.qq.com/s/SURmi4cGBjfEfn7JsrZZLA

Spark学习技巧

2018-08-20

5950

kafka入门介绍

大数据开源分布式

背景：当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息，在大数据时代，我们面临如下几个挑战：如何收集这些巨大的信息如何分析它如何及时做到如上两点以上几个挑战形成了一个业务需求模型，即生产者生产（produce）各种信息，消费者消费（consume）（处理分析）这些信息，而在生产者与消费者之间，需要一个沟通两者的桥梁-消息系统。从一个微观层面来说，这种需求也可理解为不同的系统之间如何传递消息。 Kafka诞生：由 linked-in 开源 kafka-即是解决这

Spark学习技巧

2018-06-22

5920

Spark设计理念和基本架构

spark 开源 apache

Spark是一个通用的并行计算框架，由加州伯克利大学（UC Berkeley）的AMP实验室开发于2009年，并于2010年开源，2013年成长为Apache旗下在大数据领域最活跃的开源项目之一。虽然Spark是一个通用的并行计算框架，但是Spark本质上也是一个基于map-reduce算法模型实现的分布式计算框架，Spark不仅拥有了Hadoop MapReduce的能力和优点，还解决了Hadoop MapReduce中的诸多性能缺陷。 HadoopMapReduce的问题与演进早期的Hadoop

Spark学习技巧

2018-06-22

1.1K3

分布式开放消息系统(RocketMQ)的原理与实践

分布式开源

分布式消息系统作为实现分布式系统可扩展、可伸缩性的关键组件，需要具有高吞吐量、高可用等特点。而谈到消息系统的设计，就回避不了两个问题：消息的顺序问题消息的重复问题 RocketMQ作为阿里开源的一款高性能、高吞吐量的消息中间件，它是怎样来解决这两个问题的？RocketMQ 有哪些关键特性？其实现原理是怎样的？关键特性以及其实现原理一、顺序消息消息有序指的是可以按照消息的发送顺序来消费。例如：一笔订单产生了 3 条消息，分别是订单创建、订单付款、订单完成。消费时，要按照顺序依次消费才有意义。与此同

Spark学习技巧

2018-06-22

2.2K0

云HBase小组成功抢救某公司自建HBase集群，挽救30+T数据

hbase 开源运维大数据

云栖君导读：使用过开源HBase的人都知道，运维HBase是多么复杂的事情，集群大的时候，读写压力大，配置稍微不合理一点，就可能会出现集群状态不一致的情况，糟糕一点的直接导致入库、查询某个业务表不可用，甚至集群运行不了。在早期0.9x版本的时候，HBase的修复工具还有一下bug，使得即使你懂得如何修复的情况下，依然需要多次重复运行命令，绕过那些不合理的修复逻辑，甚至有时候需要自己写代码预先修复某个步骤。背景上周五，某公司使用的某DataHup 大数据产品自建一个HBase集群挂了！整个集群有30+

Spark学习技巧

2018-06-22

9230

开源消息中间件Kafka在华泰证券的探索与实践

开源 apache 分布式

本文选自《交易技术前沿》第二十九期（2017年12月）樊建谷正亮陆俊华泰证券股份有限公司信息技术部邮箱：fanjian@htsc.com 摘要：Kafka 作为开源消息中间件的重要分支，在券商领域会有怎样的应用场景？本文从华泰证券的应用现状出发，介绍了 Kafka 在华泰证券的大规模实践经验。点击阅读原文，即可查看原文链接。 1. 引言 Apache Kafka 发源于 LinkedIn，于 2011 年成为 Apache 的孵化项目，随后于 2012 年成为 Apache 的顶级

Spark学习技巧

2018-06-22

1.7K0

重磅：如何玩转kylin

hadoop 开源分布式

1， kylin是什么？为什么需要？ Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc.

Spark学习技巧

2018-01-31

1.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态