腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

about云

专栏作者

216

文章

314237

阅读量

58

订阅数

如何阅读源码

hadoop flink java 大数据

问题导读 1.阅读源码不同的情况该如何阅读源码? 2.如果为了面试，该如何快速懂得源码？ 3.阅读源码的难点在什么地方？为何要阅读源码？可能原因如下： 1.面试要求 2.提升编码能力在面试中，

2022-03-31

5470

2021年最新鲜的面试题整理：亿信华辰

spark kafka hive 存储 hadoop

我们VIP成员很多在2021年春节年前、后，拿到了offer。而且不止一个，有的两个，有的四个，有的六个。这里给我们分享其中一位成员，整理的一家公司的面试题，后续将会陆续发布。

2021-03-22

1K0

Hadoop3.3新版本发布【整合了腾讯云】

yarn hadoop 缓存 http 容器

问题导读 1.Hadoop3.3支持JDK哪个版本？ 2.SCM是什么？ 3.YARN应用程序做了哪些改进？ 4.整合腾讯云实现了什么文件系统？ 1.支持ARM 这是第一个支持ARM的版本。 2.Protobuf从2.5.0升级到新版本 Protobuf从2.5.0升级到3.7.1 3.支持Java11 支持Java11 4.支持模拟AuthenticationFilter过滤器外部服务或YARN服务可能需要根据使用Web协议的用户行为来调用WebHDFS或YARN REST API。最好在AuthenticationFilter或类似的扩展中支持模拟机制。

2020-07-31

9420

数据治理：白话打通对Atlas的理解

大数据 hadoop https 网络安全数据库

问题导读 1.Atlas是什么？ 2.Atlas能干什么？ 3.Atlas血统关系是什么？ Atlas现在被企业使用的越来越多，我们可能听说过，但是具体它是什么，能干什么的，我们可能不清楚。因此我们要解决第一个问题，Atlas是什么？ Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop生态系统集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。上面我们或许听着比较懵圈，都是啥，元数据治理是啥？为啥要元数据治理？元数据不就是用来描述数据的数据，我们这么理解没有错的，不过这个是其中重要的一项。比如Hive的元数据，那是需要第三方数据库的，大多存储到mysql中。为啥又出来一个Atlas，它能管理Hive的元数据吗？别说，还真可以的。那为啥要用Atlas来管理。这就涉及到我们的第二个问题，Atlas能干什么？。 Atlas能干什么？其实很多大数据组件都有元数据管理，比如： Hive保存在外部数据库中，比如Mysql Hadoop元数据保存在Namenode，元数据的存储格式：data/hadoopdata/目录下 name：元数据存储目录 namenode存储元数据的存储目录 Kakfa元数据一般保存在zookeeper中等等以上，我们的元数据每个大数据组件都有保存的地方，为啥还需要Atlas。上面元数据是为了功能而生，都是单独的系统，散落在各个组件中，而我们能不能把这些元数据统一管理，而且数据的变化我们也能看到那就更好了。而且如果能把我们整个集群的大数据组件的元数据我们都能看到，那就更好了。看到这些有什么好处？比如我们想找到Hive有哪些表，想查看我们数据是怎么来的。这时候数据管理工具就产生了--Atlas，用来管理元数据的平台。我们知道了Atlas是什么，能干什么，可能是比较通透了。可是还不够详细，那么接下来我们看看Atlas有哪些功能，有什么特点。这里直接借用《大数据治理与安全从理论到开源实践》书中内容。

2019-12-30

2.5K0

Hbase故障处理汇总及评注

hadoop node.js unix zookeeper 大数据

Hbase是企业比较常用的大数据组件，对于开发来讲，单纯的开发几乎不可能，往往都会搭建集群，甚至负责集群的维护，特别是公司规模较小。我们VIP中很多成员，都是一个成员扛起了整个公司的大数据部门，被称之为“扛把子”。

2019-11-06

6.6K0

Flink1.8新版发布:都有哪些改变

大数据文件存储 hadoop sql kafka

问题导读 1.Flink1.8引入对什么状态的连续清理？ 2.保存点兼容性方面，不在兼容哪个版本？ 3.Maven依赖在Hadoop方便发生了什么变化？ 4.Flink是否发布带有Hadoop的二进制文件？ Flink1.8发布，主要改变如下： 1.将会增量清除旧的State 2.编程方面TableEnvironment弃用 3.Flink1.8将不发布带有Hadoop的二进制安装包更多详细如下：

2019-05-07

1.4K0

Cloudera Enterprise 6.0发布【集成Hadoop3.0】

erp hadoop 开源机器学习 apache

问题导读 1.cloudera集成了哪些新的组件？ 2.Cloudera Manager可以管理多少节点？ 3.升级版本有哪些条件？看到同行Fayson文章，公众号为Hadoop实操，发布了关于Cloudera Enterprise 6.0文章，非常的兴奋，这里根据英文原文翻译，分享给大家。

2018-10-08

7530

Hadoop 2.x与3.x 22点比较：3.x将节省大量存储空间

hadoop 存储 api apache 开源

1.Hadoop3.x通过什么方式来容错？ 2.Hadoop3.x存储开销减少了多少？ 3.Hadoop3.x MR API是否兼容hadoop1.x？

2018-10-08

2.2K0

spark零基础学习线路指导【包括spark2】

spark php hadoop

问题导读 1.你认为spark该如何入门？ 2.你认为spark入门编程需要哪些步骤？ 3.本文介绍了spark哪些编程知识？

2018-07-26

1.4K0

搭建hadoop集群必参考的文章：为Hadoop集群选择合适的硬件配置

问题导读 1.哪些情况会遇到io受限制？ 2.哪些情况会遇到cpu受限制？ 3.如何选择机器配置类型？ 4.为数据节点/任务追踪器提供的推荐哪些规格？随着Apache Hadoop的起步，云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上，提出一个理想的集群配置不想提供硬件规格列表那么简单。选择硬件，为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。（比如，IO密集型工作负载的用户将会为每个核心主轴投资更多）。在

2018-03-27

1.3K0

spark与hadoop相比，存在哪些缺陷（劣势）

spark hadoop 大数据开源

一说大数据，人们往往想到Hadoop。这固然不错，但随着大数据技术的深入应用，多种类型的数据应用不断被要求提出，一些Hadoop被关注的范畴开始被人们注意，相关技术也迅速获得专业技术范畴的应用。最近半年来的Spark之热就是典型例子。 Spark是一个基于RAM计算的开源码ComputerCluster运算系统，目的是更快速地进行数据分析。Spark早期的核心部分代码只有3万行。Spark提供了与HadoopMap/Reduce相似的分散式运算框架，但基于RAM和优化设计，因此在交换式数据分析和datami

2018-03-27

1.4K0

hadoop入门:第十章hadoop工具

hadoop http html linux 编程算法

问题导读 1.hadoop有哪些工具？ 2.hadoop流的作用是什么？ 3.hadoop集群负载如何模拟？ 4.hadoop数据提取和分析工具是哪个？ 1.Hadoop 流文档简介

2018-03-27

1K0

hadoop,hbase,hive，zookeeper版本整合兼容性最全，最详细说明【适用于任何版本】

问题导读 1.hadoop与hbase哪些版本兼容？ 2.hadoop与hive哪些版本兼容？ 3.hbase与hive哪些版本兼容？ 4.hbase与zookeeper哪些版本兼容？前言之

2018-03-27

2.6K0

hadoop，hbase，hive，zookeeper整合可行性分析及版本确定【续篇】

zookeeper hbase TDSQL MySQL 版 hadoop hive

问题导读 1.如何确定什么版本是稳定版本？ 2.本文是如何确定各个版本的？ 3.hbase1.x与hive1.x什么情况下是兼容的？前面一篇写过 hadoop,hbase,hive，zooke

2018-03-27

1.4K0

如何通过官网查找hadoop、hbase、hive版本兼容信息

hadoop hbase http TDSQL MySQL 版 hive

问题导读 1.如何查看hbase与hadoop的兼容？ 2.hive是否与所有hadoop兼容？ 3.hadoop2.7.1 hbase1.2.x hive1.2.0是否兼容？打算做一个比较新的版本兼容，版本的兼容是一个问题。那么如何来看是否兼容。最简单的办法： hadoop、hbase、hive、zookeeper版本对应关系续(最新版) 那么我们该如何查看hadoop、hbase、hive他们之间的兼容关系这时候，我们就要去官网了：首先查看hbase: 进入官网 http://h

2018-03-27

5K0

spark入门基础知识常见问答整理

spark hadoop 数据库大数据 sql

一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布

2018-03-27

1.2K0

Hadoop2.x 让你真正明白yarn

yarn node.js http hadoop php

问题导读 1.hadoop1.x中mapreduce框架与yarn有什么共同点？ 2.它们有什么不同点？ 3.yarn中有哪些改变？ 4.yarn中有哪些术语？原文：about云日志分析项

2018-03-27

1.2K0

大数据处理分析的六大工具

hadoop 开源 apache 数据挖掘

下面请看详细介绍： Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元

2018-03-27

3K0

hadoop为什么64MB(或128MB或256MB)是最优选择？

问题导读：为什么不能远少于64MB(或128MB或256MB) ? 为什么不能远大于64MB(或128MB或256MB)？为什么不能远少于64MB(或128MB或256MB) ?

2018-03-27

1.2K0

新技术架起 Oracle、Hadoop、NoSQL数据存储之间的桥梁

oracle hadoop nosql sql 大数据

一直以来，大数据的使用远远不及大数据收集能力，就起原因主要是目前企业的数据主要分散在不同的系统或组织，大数据战略的杀手锏就是能够更深度的，更丰富的挖掘所有数据系统中的有价值的信息，从而更准确的预测客户行为，发现商业价值，但是目前很难将这些数据移到一个单独的数据存储中，另外，安全和监管问题也得不到保障，Oracle Big Data SQL的推出解决了现在面临的难题。以下为译文：发现企业或组织对数据管理架构的需求，Oracle推出Big Data SQL软件来整合包括Hadoop、NoSQL和Oracl

2018-03-27

8050

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态