专栏首页Hadoop实操Hortonworks正式发布HDP3.0

Hortonworks正式发布HDP3.0

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

Fayson的github: https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

7月13日,Hortonworks在其官网宣布发布HDP3.0,包括Ambari2.7和SmartSense1.5。包括下载仓库与配套文档都正式GA。

1.更新概要


HDP3.0是大数据生态系统的一次巨大飞跃,整个技术栈发生了重大变化,并扩展了周边的生态系统(深度学习和第三方Docker应用程序)。HDP3.0同时支持物理本地部署以及主要的公有云部署包括AWS,Azure和Google Cloud。许多HDP3.0的新特性都是基于Apache Hadoop3.1的,包括容器化,GPU支持,纠删码和NameNode联邦。为了提供受信任以及安全的数据湖,HDP3.0默认安装包括Apache Ranger与Apache Atlas。为了简化堆栈,HDP3.0移除了一些组件包括Apache Falcon,Apache Mahout, Apache Flume和Apache Hue,同时将Apache Slider的功能引入到Apache YARN中。

2.HDFS

2.1.用于冷数据的纠删码

1.使用具有6个数据分片和3个奇偶校验分片的Reed Solomon编码将存储开销降低50%,同时可以保证数据的可用性,与3副本相似(在HDP工具中包含的可选的Intel存储加速库)。

2.2.NameNode联邦


1.使用Ambari UI向导可以启用NameNode联邦,从而线性的扩展HDFS namespace,同时支持Hive,Spark和Ranger。

2.3.云储存&企业功能强化

1.Google Cloud Storage连接器

2.通过NFS gateway支持,View Filesystem可以启用一个统一的全局视图。

3.每个namespace的多个stanby NameNode可以提高可用性(Ambari UI不支持)。

4.在单个DataNode内,对于不同容量的磁盘,可以balance数据。

3.YARN

3.1.YARN上的容器化服务

1.YARN支持运行Docker容器。

2.YARN上支持Docker化的Spark作业。

3.支持Slider功能,简化YARN的REST API和DNS发现。

3.2.增强的可靠性,可用性和可维护性

1.对于用户和开发人员更友好的YARN UI。

2.可扩展的Application Timeline Services2.0,支持基于流的应用程序性能管理(APM)。

4.Hive

1.LLAP的工作负载管理

你可以在LLAP池中分配资源池,并基于每个用户或每个组分配资源。这样可以支持大型集群的多租户功能。

2.ACID v2以及默认开启ACID

我们正在发布ACID v2。 随着存储格式和执行引擎的性能改进,与非ACID表相比,我们看到了相同或更好的性能。因此,我们默认启用ACID并启用对数据更新的完全支持。

3.Spark的Hive仓库连接器

Hive WarehouseConnector允许你将Spark应用程序与Hive数据仓库连接。连接器自动处理ACID表。这使数据科学工作负载能够很好地与Hive中的数据配合使用。

4.物化视图

物化视图允许你预先聚合和预先计算查询中使用的表。通常最适合子查询或中间表。如果这些中间结果可用,基于成本的优化程序将自动查询这些中间结果,从而大大加快查询速度。

5.Information schema

通MySQL类似,现在可以直接通过Hive SQL借口查询数据库的元数据(表,列等)。

6.JDBC存储连接器

你现在可以将任何支持JDBC的数据库映射到Hive的catalog。这意味着你现在可以使用Hive对其他数据库和Hive中的表进行join操作。

7.Kafka-Druid ingest

你现在可以将Kafkatopic映射到Druid表中。消息事件会自动抽取到Druid中,然后提供准实时的查询。这与Kafka-Hive ingest不同,Kafka-Hive ingest使用SQL合并定期将数据加载到Hive表中,数据延迟一般为5-10分钟。

5.机器学习与深度学习

主要包括Spark/Zeppelin/Livy

核心能力:

1.支持Apache Spark2.3.1

2.ORC支持Structured Streaming

3.Spark History Server支持安全与ACL

4.支持在Docker容器中运行Spark作业

5.将Spark/Zeppelin/Livy从HDP2.6更新到HDP3.0

6.与S3Guard/S3A的开发人员进行Spark测试

7.与Spark认证Staging Committer

8.集成新的Metastore Catalog特性

9.Spark thrift server的Beeline支持

10.在Ambari中配置LLAP模式

集成:

1.支持每个notebook解释器配置

2.Livy支持ACL

3.Knox代理Spark History Server UI

4.Hive流式库支持Structured Streaming

5.透明写入Hive仓库

6.Ranger支持Spark-LLAP连接器

深度学习:

1.TensorFlow 1.8(仅供技术预览)

6.流式处理引擎

主要包括Kafka和Storm

1.支持Kafka1.0.1

2.重大更新

KAFKA-6172 - TimeIndex中的Cache lastEntry以避免不必要的磁盘访问。

KAFKA-6175 - AbstractIndex会缓存索引文件以避免不必要的磁盘访问在resize()期间。

KAFKA-6258 - SSLTransportLayer会保持从socket读取,直到缓冲区已满或socket中没有更多数据。

3.支持Storm1.2.1,该Storm版本同时支持HDP3.0中其他更新组件包括Hadoop/HDFS3.0, HBase2.0和Hive3。

4.捕获producer和topic分区级别的指标,而不需要在客户端配置拦截器。这提供了一种非侵入性的方法来捕获producer的重要指标,而无需重构/修改现有的Kafka客户端。

7.操作型数据库

Apache HBase的新特性。

1.备份和恢复

HBase源生支持备份/恢复,包括全量和增量的备份/恢复支持。这是admin工具包中的一个重要工具,下一个版本将支持DLM,即UI。

2.Procedure V2

你现在可以使用Procedure V2(社区里也叫Proc-v2),这是一个更新的框架,用于在发生故障时执行多步骤的HBase管理操作。引入此功能是使用proc-v2来实现所有master操作,并在未来移除像hbck这种工具。使用proc-v2创建,修改和删除表。新的AssignmentManager等其他系统也会使用proc-v2实现。

3.Fully off-heap read/write path

当通过Put操作将数据写入HBase时,在将数据flush到HFile之前,cell对象不会进入JVM heap。这有助于减少RegionServer的总heap使用量,并且复制更少的数据,从而提高效率。

4.Use of Netty for RPC layer and Async API

将旧的Java NIO RPC服务替换为Netty RPC服务。Netty可以更容易的提供异步的Java客户端API。

5.In-memory compactions (Accordion)

Memstore中数据的定期重组可以减少整体I/O,即从HDFS写入和访问的数据。当我们在内存中保留更长时间的数据时,净性能会提高。

6.更好的依赖管理

HBase现在内部隐藏了通常不兼容的依赖,以防止出现问题。 你也可以使用隐藏的客户端jars,这将减轻现有应用程序的负担。

7.重写Coprocessor和Observer API

对API进行了微小的更改,以消除模糊,误导和危险的调用。

Apache Phoenix的新特性

1.HBase2.0支持

2.Phoenix Query服务的Python驱动

这是引入到Apache Phoenix项目的社区驱动程序。它提供Python db 2.0 API实现。

3.查询日志

这是一个新的系统表“SYSTEM.LOG”,它捕获有关针对集群运行的查询的信息(客户端驱动的)。

4.列编码

这是HDP的新功能。你可以在HBase表中使用自定义数据编码方案来减少占用的空间。由于读取的数据较少,可以增加性能以及减少存储。稀疏表的性能增益为30%及以上。

5.Phoenix的Hive3.0支持

对于新的Hive版本提供新的phoenix-hive StorageHandler(技术预览)。

6.Spark 2.3支持Phoenix

对于新的Spark版本提供新的phoenix-spark驱动

7.支持GRANT和REVOKE命令

如果数据表或视图更改了访问权限,它会自动更改索引ACL。

8.引入对sampling tables的支持。

9.支持atomic update (ON DUPLICATE KEY)。

10.支持基于MR查询的snapshot扫描。

11.加强Local和Global的二级索引。

8.安全和治理

8.1.Apache Ranger

8.1.1.核心策略引擎和审计功能增强

1.可调度策略:策略生效日期,以支持有时间限制的授权策略和临时策略

2.覆盖策略以支持临时资源访问,覆盖特定用户的masking/row filtering

3.Auditor和KMS Auditor角色,支持对服务,策略,用户/组,审核和报告的只读访问。

4.在access audits UI中显示Hive查询。

5.在Ranger Admin UI中审计用户同步操作

6.用于分组和组织策略以及按标签filter/search的策略标签

7.Ranger Admin UI中显示的组中的用户成员身份

8.1.2.生态系统覆盖和增强

1.为Atlas通过细粒度授权实现Metadata安全性。

2.Atlas Tag Sync service性能提升。

3.Hive UDF执行和使用授权。

4.Hive工作负载管理授权。

5.通过Hive Information_schema支持entitlement mapping。

6.HDFS NameNode联邦支持

7.通过Solr 7支持,改进了索引基础架构。

8.Ranger插件兼容HDP3.0其他的组件包括Hive,HDFS,Storm,HBase,Kafka和YARN。

8.1.3.适用于企业

1.能够在Ranger安装期间为管理员帐户指定密码

2.所有受支持的DB flavor的合并db schema脚本

3.在安装HDP3.0时,默认安装Ranger和Atlas。

8.2.Apache Atlas

8.2.1.核心元数据功能

1.新的Glossary和Business Catalog

使业务用户能够捕获自然业务术语并提供业务词汇管理(术语分类,业务术语 - 资产关联,语义术语关系,层次结构)

2.Classification (tag)Propagation

通过对传播进行细粒度控制的分类(标签)传播到相关或衍生资产,改进监管链

3.Metadata Security

对data catalog中元数据的细粒度授权(对元数据操作的特定标签授权,数据资产/类型/管理操作授权,如元数据导入/导出)

4.有时间限制的分类或业务目录映射

8.2.2.生态系统覆盖和增强

1.新的Spark Hook(技术预览),用于在Atlas中捕获Spark SQL,Dataframe和模型元数据以及数据溯源。

2.新的HBase hook以捕获元数据和数据溯源。

3.通过Solr 7支持,改进了索引基础架构。

4.使用JanusGraph DB提供Tinkerpop 3标准兼容性的图形后端,提升可扩展性以及性能。

5.更新了用于HDP3.0生态系统兼容性的Atlas Hook(Hive,Storm / Kafka,Sqoop)

6.使用新的v2样式通知改进了元数据加载性能

7.通过大规模的DSL重构提高搜索性能。

9.AMBARI 2.7 & SMARTSENSE 1.5.0

9.1.Ambari2.7

1.可用性

新的Ambari UI改动很大,更易于大规模导航,使用和执行。

2.管理性和扩展性

Ambari 2.7支持最多管理5000个节点的集群。

3.简化安全配置

单点登录是安全性和与数据平面服务(DPS)集成的必要条件,因此我们简化了DPS服务的SSO设置。FreeIPA是一种广受欢迎的IDM工具,我们现在正式支持在启用Kerberos时与FreeIPA集成。

4.自动化

Ambari拥有强大的API,我们新的REST API资源管理器可帮助团队发现并理解它所提供的一切。

5.可扩展性

与EMC紧密合作,以改善Ambari和HDP与Isilon OneFS的集成。现在,你可以轻松配置集群使用OneFS。

6.Papercuts

新功能非常棒,主要帮助你的Ambari的日常生活。

9.2.SmartSense1.5.0

1.诊断捕获

SmartSense现在可以捕获NiFi Registry,Schema Registry,Streaming Analytics Manager,Ambari Infra和Data Analytics Studio诊断信息。

2.活动分析

对于使用新的HDFS联邦功能的用户,每个namespace都可以使用活动数据。常用的过滤器也已全局化,以简化过滤和数据探索,现在可以看到LLAP查询。此外,还添加了三个新的活动资源管理器仪表板:作业比较,用户摘要和工作负载趋势。

3.Ambari视图

SmartSense视图包含对捕获内容的完整描述,以增强透明度并简化与安全团队的交流。

原文地址:

https://zh.hortonworks.com/blog/announcing-general-availability-hortonworks-data-platform-3-0-0-ambari-2-7-0-smartsense-1-5-0/

本文分享自微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 0514-Hive On Spark无法创建Spark Client问题分析

    在集群中进行Hive-On-Spark查询失败,并在HiveServer2日志中显示如下错误:

    Fayson
  • 06-如何为Impala集成AD认证

    Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Active Direct...

    Fayson
  • 如何安装SmartBI并连接到Impala

    Fayson
  • 开发者必读:GitHub 2018年十大科技趋势预测

    2017年属于人工智能和机器学习,其势头将在明年得到延续,除此之外,2018年还有哪些科技趋势值得所有IT人士和企业共同关注的呢?真理掌握在拥有数据水晶球的人手...

    静一
  • TiSpark (Beta) 用户指南

    TiSpark 是 PingCAP 推出的为了解决用户复杂 OLAP 需求的产品。借助 Spark 平台本身的优势,同时融合 TiKV 分布式集群的优势,和 T...

    PingCAP
  • python爬虫 requests异常:requests.exceptions.ConnectionError...

    1.http的连接数超过最大限制,默认的情况下连接是Keep-alive的,所以这就导致了服务器保持了太多连接而不能再新建连接。 2.ip被封 3.请求过快

    周小董
  • Apache Spark:大数据领域的下一件大事?

    Apache Spark正在引起很大的热议。Databricks是为支持Spark而成立的一个公司,它从Andreessen Horowitz募集到了$ 140...

    用户2176511
  • JavaWeb(六)之MVC与三层架构设计

    前言   这段时间要学习hadoop,但是也希望把自己的web知识复习起来。所以花自己休息的时间把这些web的知识好好的巩固一下!没有什么可以阻挡我前进的脚步。...

    用户1195962
  • 有趣的算法(五) ——Dijkstra双栈四则运算

    有趣的算法(五)——Dijkstra双栈四则运算 (原创内容,转载请注明来源,谢谢) 一、概念 近期看到算法书上,提到dijkstra双栈的方法,实现输入一...

    用户1327360
  • Hadoop/Spark生态圈里的新气象

    我是攻城师

扫码关注云+社区

领取腾讯云代金券