Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1301998

阅读量

248

订阅数

吐血整理：常用的大数据采集工具，你不可不知

scrapy 大数据数据库 sql hadoop

大数据的来源多种多样，在大数据时代背景下，如何从大数据中采集出有用的信息是大数据发展的最关键因素。大数据采集是大数据产业的基石，大数据采集阶段的工作是大数据的核心技术之一。为了高效采集大数据，依据采集环境及数据类型选择适当的大数据采集方法及平台至关重要。下面介绍一些常用的大数据采集平台和工具。

Spark学习技巧

2022-01-13

2K0

Hadoop 生态里，为什么 Hive 活下来了？

hive hadoop 数据库数据分析大数据

Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角，当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务：一是查询引擎：负责执行 SQL 语句；二是元存储：负责在 HDFS 中将数据收集虚拟化为表。

Spark学习技巧

2022-01-13

3420

Hadoop重点难点：Hadoop IO/压缩/序列化

node.js hadoop 文件存储存储数据处理

序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。

Spark学习技巧

2022-01-13

9330

解读Secondary NameNode的功能

node.js 官方文档 hadoop 大数据

最近有朋友问我Secondary NameNode的作用，是不是NameNode的备份？是不是为了防止NameNode的单点问题？确实，刚接触Hadoop，从字面上看，很容易会把Secondary NameNode当作备份节点；其实，这是一个误区，我们不能从字面来理解，阅读官方文档，我们可以知道，其实并不是这么回事，下面就来赘述下Secondary NameNode的作用。

Spark学习技巧

2021-03-05

1.6K0

大数据开源框架技术汇总

apache hadoop 开源 spark 数据分析

Hadoop：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch，Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推出，2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进，它将服务器与普通硬盘驱动器结合，并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表，形了成完整的生态圈，已经成为事实上的大数据标准，开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。Hadoop3.0以后的版本对MR做了大量优化，增加了基于内存计算模型，提高了计算效率。比较普及的稳定版本是2.x，目前最新版本为3.2.0。

Spark学习技巧

2021-03-05

2.1K0

【开发实践】美团为什么开发 Kylin On Druid（上）？

apache hbase TDSQL MySQL 版存储 hadoop

在大数据分析领域，Apache Kylin 和 Apache Druid （incubating）是两个普遍使用的 OLAP 引擎，都具有支持在超大数据上进行快速查询的能力。在一些对大数据分析非常依赖的企业，往往同时运行着 Kylin 和 Druid 两套系统，服务于不同的业务场景。

Spark学习技巧

2021-03-05

7540

Spark 在金融领域的应用之日内走势预测

spark hadoop hdfs

2014年后半年开始，国内 A 股市场可谓是热火朝天啊，路上的人谈的都是股票。小弟虽然就职金融互联网公司，但之前从来没有买过股票，但每天听着别人又赚了几套房几辆车，那叫一个心痒痒啊，那感觉，就跟一个出浴美女和你共处一室，但你却要死忍住不去掀开浴巾一样。终于，小弟还是”犯了全天下男人都会犯的错误”，还是在 2015.03.19 那天入市了，还记得自己的第一次是献给了一支叫天建集团的股票，好像当天还赚了一两百块吧，当时心情那叫一个激动，下班了第一时间就打电话给娘亲了。

Spark学习技巧

2021-03-05

6300

元数据管理|Hive Hooks和Metastore监听器介绍

html 数据库 sql xml hadoop

元数据管理是数据仓库的核心，它不仅定义了数据仓库有什么，还指明了数据仓库中数据的内容和位置，刻画了数据的提取和转换规则，存储了与数据仓库主题有关的各种商业信息。本文主要介绍Hive Hook和MetaStore Listener，使用这些功能可以进行自动的元数据管理。通过本文你可以了解到：

Spark学习技巧

2020-09-08

2.2K0

Hive鲜为人知的宝石-Hooks

linux hive hadoop mapreduce http

Hive为Hadoop提供了一个SQL接口。Hive可以被认为是一种编译器，它将SQL（严格来说，Hive查询语言 - HQL，SQL的一种变体）转换为一组Mapreduce / Tez / Spark作业。因此，Hive非常有助于非程序员使用Hadoop基础架构。原来，Hive只有一个引擎，即MapReduce。但是在最新版本中，Hive还支持Spark和Tez作为执行引擎。这使得Hive成为探索性数据分析的绝佳工具。

Spark学习技巧

2020-07-31

2.6K0

Hdfs的DN节点数据磁盘大小不均衡如何处理

hadoop node.js 大数据存储数据迁移

这是一篇历史文章，貌似16还在负责做集群的时候遇到并解决的一问题。之所以发出来是因为感觉比较实用，自从公众号迁移之后，历史文章不能搜索了，所以浪尖每隔一段时间，抽一篇比较实用的历史文章发出来，以便于大家复习和新手来公众号搜索。

Spark学习技巧

2020-05-29

1.8K0

干货 | 实践Hadoop MapReduce 任务的性能翻倍之路

hadoop unix mapreduce 日志数据 sql

摘要：eBay的CAL（Central Application Logging）系统负责收集eBay各种应用程序的日志数据，并且通过Hadoop MapReduce job生成日志报告，应用程序开发人员与运维人员通过报告可获得以下内容：

Spark学习技巧

2019-12-27

6090

脑补|yarn能并行运行任务总数～

yarn node.js spark hadoop

最近知识星球没动静主要原因是知识星球他们在做系统升级，我也很无奈，由此给球友带来的不安，深感抱歉。

Spark学习技巧

2019-11-07

1.3K0

系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

hadoop java 云数据库 SQL Server sql 数据库

☞ ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreaSets ]

Spark学习技巧

2019-09-26

2.9K0

中间件运维分析中的选型与实践

运维 hadoop 大数据解决方案大数据

在近期的 Kylin Data Summit 上，好买财富平台架构总监王晔倞在互联网专场上分享了好买财富在中间件运维分析平台的演进过程。好买财富为什么选择从广泛应用的 ELK 转向 Apache Kylin 呢？

Spark学习技巧

2019-09-08

8310

大数据(生于2006，卒于2019)已死！

hadoop 大数据数据库数据可视化 sql

由于关注的重心从我们收集数据的方式转向实时处理数据，大数据时代即将终结。大数据现在是支持多云、机器学习和实时分析这几个新时代的业务资产。

Spark学习技巧

2019-08-06

1.5K0

面试必备|spark对硬件的要求

spark hadoop hbase 大数据 TDSQL MySQL 版

估计所有的spark开发者都很关心spark的硬件要求。恰当的硬件配置需要具体情况具体分析，在这里给出以下建议。主要译自官网

Spark学习技巧

2019-07-15

1.5K0

Spark Core读取ES的分区问题分析

hadoop scala Elasticsearch Service 编程算法

ES也是比较火热，在日志数据分析，规则分析等确实很方便，说实话用es stack 浪尖觉得可以解决很多公司的数据分析需求。极客时间下周一要上线新的ES课程，有需要的暂时别购买，到时候还找浪尖返现吧。

Spark学习技巧

2019-06-20

1.5K0

针对 Hadoop 的 Oozie 工作流管理引擎的实际应用

hadoop apache 打包云数据库 SQL Server 数据库

Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架（如图 1 所示）使用 Oozie协调器促进了相互依赖的重复工作之间的协调，您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle系统提交或维护一组协调应用程序。作为本练习的一部分，Oozie 运行了一个 Apache Sqoop 作业，以便在 MySQL数据库中的数据上执行导入操作，并将数据传输到 Hadoop 分布式文件系统 (HDFS) 中。可以利用导入的数据集执行 Sqoop合并操作，从而更新较旧的数据集。通过利用 UNIX shell 操作，可从 MySQL 数据库中提取用来执行 Sqoop 作业的元数据。同理，可执行 Java操作来更新 Sqoop 作业所需的 MySQL 数据库中的元数据。

Spark学习技巧

2018-10-25

1.1K0

Hive性能优化（全面）

面对这些问题，我们能有哪些有效的优化手段呢？下面列出一些在工作有效可行的优化手段：

Spark学习技巧

2018-08-01

4.2K0

Hdfs的数据磁盘大小不均衡如何处理

node.js hadoop 大数据存储数据迁移

最近浪尖在纠结一个现在看起来很简单的问题。现象描述建集群的时候，datanode的节点数据磁盘总共是四块磁盘做矩阵成了一个7.2TB的sdb1(data1)，两块通过矩阵做了一个3.6TB的sdc1(data2)磁盘，运维做的，历史原因。刚开始没有发现，然后集群过了一段时间，随着数据量的增加，发现集群有很多磁盘超过使用率90%告警，浪尖设置磁盘告警阈值是90%，超过阈值就会发短信或者微信告警，提醒我们磁盘将要满了进行预处理，但是通过hadoop的监控指标获取的磁盘利用率维持在55%+，这种情况下不应该

Spark学习技巧

2018-03-20

2.2K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态