前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hortonworks正式发布HDP3.0

Hortonworks正式发布HDP3.0

作者头像
Fayson
发布2018-08-03 14:44:51
3.5K0
发布2018-08-03 14:44:51
举报
文章被收录于专栏:Hadoop实操

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

Fayson的github: https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

7月13日,Hortonworks在其官网宣布发布HDP3.0,包括Ambari2.7和SmartSense1.5。包括下载仓库与配套文档都正式GA。

1.更新概要


HDP3.0是大数据生态系统的一次巨大飞跃,整个技术栈发生了重大变化,并扩展了周边的生态系统(深度学习和第三方Docker应用程序)。HDP3.0同时支持物理本地部署以及主要的公有云部署包括AWS,Azure和Google Cloud。许多HDP3.0的新特性都是基于Apache Hadoop3.1的,包括容器化,GPU支持,纠删码和NameNode联邦。为了提供受信任以及安全的数据湖,HDP3.0默认安装包括Apache Ranger与Apache Atlas。为了简化堆栈,HDP3.0移除了一些组件包括Apache Falcon,Apache Mahout, Apache Flume和Apache Hue,同时将Apache Slider的功能引入到Apache YARN中。

2.HDFS

2.1.用于冷数据的纠删码

1.使用具有6个数据分片和3个奇偶校验分片的Reed Solomon编码将存储开销降低50%,同时可以保证数据的可用性,与3副本相似(在HDP工具中包含的可选的Intel存储加速库)。

2.2.NameNode联邦


1.使用Ambari UI向导可以启用NameNode联邦,从而线性的扩展HDFS namespace,同时支持Hive,Spark和Ranger。

2.3.云储存&企业功能强化

1.Google Cloud Storage连接器

2.通过NFS gateway支持,View Filesystem可以启用一个统一的全局视图。

3.每个namespace的多个stanby NameNode可以提高可用性(Ambari UI不支持)。

4.在单个DataNode内,对于不同容量的磁盘,可以balance数据。

3.YARN

3.1.YARN上的容器化服务

1.YARN支持运行Docker容器。

2.YARN上支持Docker化的Spark作业。

3.支持Slider功能,简化YARN的REST API和DNS发现。

3.2.增强的可靠性,可用性和可维护性

1.对于用户和开发人员更友好的YARN UI。

2.可扩展的Application Timeline Services2.0,支持基于流的应用程序性能管理(APM)。

4.Hive

1.LLAP的工作负载管理

你可以在LLAP池中分配资源池,并基于每个用户或每个组分配资源。这样可以支持大型集群的多租户功能。

2.ACID v2以及默认开启ACID

我们正在发布ACID v2。 随着存储格式和执行引擎的性能改进,与非ACID表相比,我们看到了相同或更好的性能。因此,我们默认启用ACID并启用对数据更新的完全支持。

3.Spark的Hive仓库连接器

Hive WarehouseConnector允许你将Spark应用程序与Hive数据仓库连接。连接器自动处理ACID表。这使数据科学工作负载能够很好地与Hive中的数据配合使用。

4.物化视图

物化视图允许你预先聚合和预先计算查询中使用的表。通常最适合子查询或中间表。如果这些中间结果可用,基于成本的优化程序将自动查询这些中间结果,从而大大加快查询速度。

5.Information schema

通MySQL类似,现在可以直接通过Hive SQL借口查询数据库的元数据(表,列等)。

6.JDBC存储连接器

你现在可以将任何支持JDBC的数据库映射到Hive的catalog。这意味着你现在可以使用Hive对其他数据库和Hive中的表进行join操作。

7.Kafka-Druid ingest

你现在可以将Kafkatopic映射到Druid表中。消息事件会自动抽取到Druid中,然后提供准实时的查询。这与Kafka-Hive ingest不同,Kafka-Hive ingest使用SQL合并定期将数据加载到Hive表中,数据延迟一般为5-10分钟。

5.机器学习与深度学习

主要包括Spark/Zeppelin/Livy

核心能力:

1.支持Apache Spark2.3.1

2.ORC支持Structured Streaming

3.Spark History Server支持安全与ACL

4.支持在Docker容器中运行Spark作业

5.将Spark/Zeppelin/Livy从HDP2.6更新到HDP3.0

6.与S3Guard/S3A的开发人员进行Spark测试

7.与Spark认证Staging Committer

8.集成新的Metastore Catalog特性

9.Spark thrift server的Beeline支持

10.在Ambari中配置LLAP模式

集成:

1.支持每个notebook解释器配置

2.Livy支持ACL

3.Knox代理Spark History Server UI

4.Hive流式库支持Structured Streaming

5.透明写入Hive仓库

6.Ranger支持Spark-LLAP连接器

深度学习:

1.TensorFlow 1.8(仅供技术预览)

6.流式处理引擎

主要包括Kafka和Storm

1.支持Kafka1.0.1

2.重大更新

KAFKA-6172 - TimeIndex中的Cache lastEntry以避免不必要的磁盘访问。

KAFKA-6175 - AbstractIndex会缓存索引文件以避免不必要的磁盘访问在resize()期间。

KAFKA-6258 - SSLTransportLayer会保持从socket读取,直到缓冲区已满或socket中没有更多数据。

3.支持Storm1.2.1,该Storm版本同时支持HDP3.0中其他更新组件包括Hadoop/HDFS3.0, HBase2.0和Hive3。

4.捕获producer和topic分区级别的指标,而不需要在客户端配置拦截器。这提供了一种非侵入性的方法来捕获producer的重要指标,而无需重构/修改现有的Kafka客户端。

7.操作型数据库

Apache HBase的新特性。

1.备份和恢复

HBase源生支持备份/恢复,包括全量和增量的备份/恢复支持。这是admin工具包中的一个重要工具,下一个版本将支持DLM,即UI。

2.Procedure V2

你现在可以使用Procedure V2(社区里也叫Proc-v2),这是一个更新的框架,用于在发生故障时执行多步骤的HBase管理操作。引入此功能是使用proc-v2来实现所有master操作,并在未来移除像hbck这种工具。使用proc-v2创建,修改和删除表。新的AssignmentManager等其他系统也会使用proc-v2实现。

3.Fully off-heap read/write path

当通过Put操作将数据写入HBase时,在将数据flush到HFile之前,cell对象不会进入JVM heap。这有助于减少RegionServer的总heap使用量,并且复制更少的数据,从而提高效率。

4.Use of Netty for RPC layer and Async API

将旧的Java NIO RPC服务替换为Netty RPC服务。Netty可以更容易的提供异步的Java客户端API。

5.In-memory compactions (Accordion)

Memstore中数据的定期重组可以减少整体I/O,即从HDFS写入和访问的数据。当我们在内存中保留更长时间的数据时,净性能会提高。

6.更好的依赖管理

HBase现在内部隐藏了通常不兼容的依赖,以防止出现问题。 你也可以使用隐藏的客户端jars,这将减轻现有应用程序的负担。

7.重写Coprocessor和Observer API

对API进行了微小的更改,以消除模糊,误导和危险的调用。

Apache Phoenix的新特性

1.HBase2.0支持

2.Phoenix Query服务的Python驱动

这是引入到Apache Phoenix项目的社区驱动程序。它提供Python db 2.0 API实现。

3.查询日志

这是一个新的系统表“SYSTEM.LOG”,它捕获有关针对集群运行的查询的信息(客户端驱动的)。

4.列编码

这是HDP的新功能。你可以在HBase表中使用自定义数据编码方案来减少占用的空间。由于读取的数据较少,可以增加性能以及减少存储。稀疏表的性能增益为30%及以上。

5.Phoenix的Hive3.0支持

对于新的Hive版本提供新的phoenix-hive StorageHandler(技术预览)。

6.Spark 2.3支持Phoenix

对于新的Spark版本提供新的phoenix-spark驱动

7.支持GRANT和REVOKE命令

如果数据表或视图更改了访问权限,它会自动更改索引ACL。

8.引入对sampling tables的支持。

9.支持atomic update (ON DUPLICATE KEY)。

10.支持基于MR查询的snapshot扫描。

11.加强Local和Global的二级索引。

8.安全和治理

8.1.Apache Ranger

8.1.1.核心策略引擎和审计功能增强

1.可调度策略:策略生效日期,以支持有时间限制的授权策略和临时策略

2.覆盖策略以支持临时资源访问,覆盖特定用户的masking/row filtering

3.Auditor和KMS Auditor角色,支持对服务,策略,用户/组,审核和报告的只读访问。

4.在access audits UI中显示Hive查询。

5.在Ranger Admin UI中审计用户同步操作

6.用于分组和组织策略以及按标签filter/search的策略标签

7.Ranger Admin UI中显示的组中的用户成员身份

8.1.2.生态系统覆盖和增强

1.为Atlas通过细粒度授权实现Metadata安全性。

2.Atlas Tag Sync service性能提升。

3.Hive UDF执行和使用授权。

4.Hive工作负载管理授权。

5.通过Hive Information_schema支持entitlement mapping。

6.HDFS NameNode联邦支持

7.通过Solr 7支持,改进了索引基础架构。

8.Ranger插件兼容HDP3.0其他的组件包括Hive,HDFS,Storm,HBase,Kafka和YARN。

8.1.3.适用于企业

1.能够在Ranger安装期间为管理员帐户指定密码

2.所有受支持的DB flavor的合并db schema脚本

3.在安装HDP3.0时,默认安装Ranger和Atlas。

8.2.Apache Atlas

8.2.1.核心元数据功能

1.新的Glossary和Business Catalog

使业务用户能够捕获自然业务术语并提供业务词汇管理(术语分类,业务术语 - 资产关联,语义术语关系,层次结构)

2.Classification (tag)Propagation

通过对传播进行细粒度控制的分类(标签)传播到相关或衍生资产,改进监管链

3.Metadata Security

对data catalog中元数据的细粒度授权(对元数据操作的特定标签授权,数据资产/类型/管理操作授权,如元数据导入/导出)

4.有时间限制的分类或业务目录映射

8.2.2.生态系统覆盖和增强

1.新的Spark Hook(技术预览),用于在Atlas中捕获Spark SQL,Dataframe和模型元数据以及数据溯源。

2.新的HBase hook以捕获元数据和数据溯源。

3.通过Solr 7支持,改进了索引基础架构。

4.使用JanusGraph DB提供Tinkerpop 3标准兼容性的图形后端,提升可扩展性以及性能。

5.更新了用于HDP3.0生态系统兼容性的Atlas Hook(Hive,Storm / Kafka,Sqoop)

6.使用新的v2样式通知改进了元数据加载性能

7.通过大规模的DSL重构提高搜索性能。

9.AMBARI 2.7 & SMARTSENSE 1.5.0

9.1.Ambari2.7

1.可用性

新的Ambari UI改动很大,更易于大规模导航,使用和执行。

2.管理性和扩展性

Ambari 2.7支持最多管理5000个节点的集群。

3.简化安全配置

单点登录是安全性和与数据平面服务(DPS)集成的必要条件,因此我们简化了DPS服务的SSO设置。FreeIPA是一种广受欢迎的IDM工具,我们现在正式支持在启用Kerberos时与FreeIPA集成。

4.自动化

Ambari拥有强大的API,我们新的REST API资源管理器可帮助团队发现并理解它所提供的一切。

5.可扩展性

与EMC紧密合作,以改善Ambari和HDP与Isilon OneFS的集成。现在,你可以轻松配置集群使用OneFS。

6.Papercuts

新功能非常棒,主要帮助你的Ambari的日常生活。

9.2.SmartSense1.5.0

1.诊断捕获

SmartSense现在可以捕获NiFi Registry,Schema Registry,Streaming Analytics Manager,Ambari Infra和Data Analytics Studio诊断信息。

2.活动分析

对于使用新的HDFS联邦功能的用户,每个namespace都可以使用活动数据。常用的过滤器也已全局化,以简化过滤和数据探索,现在可以看到LLAP查询。此外,还添加了三个新的活动资源管理器仪表板:作业比较,用户摘要和工作负载趋势。

3.Ambari视图

SmartSense视图包含对捕获内容的完整描述,以增强透明度并简化与安全团队的交流。

原文地址:

https://zh.hortonworks.com/blog/announcing-general-availability-hortonworks-data-platform-3-0-0-ambari-2-7-0-smartsense-1-5-0/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档