前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >0544-CDSW1.5的新功能

0544-CDSW1.5的新功能

作者头像
Fayson
发布2019-03-07 11:00:39
1.2K0
发布2019-03-07 11:00:39
举报
文章被收录于专栏:Hadoop实操

Cloudera于2019年1月29日发布CDSW1.5,因为恰逢过年,所以Fayson没第一时间翻译。1.5的主要更新是C6中终于可以使用CDSW了,另外HDP2.6.5和HDP3.1中也可以使用CDSW。

1

CDSW1.5的新功能

1.Cloudera Enterprise 6.1支持

Cloudera Data Science Workbench现在支持Cloudera Manager 6.1.x (或更高) 和CDH 6.1.x (或更高)。

2.Cloudera Data Science Workbench on Hortonworks Data Platform (HDP)

Cloudera Data Science Workbench现在可以部署到HDP 2.6.5和HDP 3.1.0。

3.安全增强

允许Site Administrators启用/禁用项目上传和下载 - 默认情况下,所有的CDSW用户都允许从项目上传和下载文件。1.5引入了一个新的功能,允许Site Administrator为用户在UI上隐藏上传和下载的功能。

请注意,该功能仅仅是从CDSW的界面上删除了上传和下载的按钮,它并没有禁用通过后端Web API上传和下载文件的功能。

4.OpenJDK支持

Cloudera Data Science Workbench现在支持在Cloudera Enterprise 5.16.1(或更高)上使用OpenJDK。

5.Engines

  • 基础引擎R升级到新版本3.5.1(Base Image v7)
  • 改进调试功能 - 以前,引擎在退出或崩溃后会立即删除与其关联的日志。对于1.5版本,现在可以在结束后短时间内使用引擎,以便你收集相关日志。

另外,当引擎以non-zero状态码退出时,引擎日志中的最后50行现在将打印到Workbench控制台。请注意,non-zero退出码和Workbench中引擎日志的存在并不总是意味着你的代码存在问题。会话超时和内存不足问题等也会抛出non-zero退出码,并显示引擎日志。

6.安装和升级

  • 新的配置参数 - 1.5包括三个新配置参数,可用于指定正在运行的分发版类型,已安装软件包/parcel的目录以及安装Anaconda的路径(仅适用于HDP)。
    • DISTRO
    • DISTRO_DIR
    • ANACONDA_DIR
  • DOCKER_TMPDIR修改为/var/lib/cdsw/tmp/docker - 以前,CDSW安装程序会临时将基础引擎镜像文件解压到/var/lib/docker/tmp目录。从1.5版本开始,安装程序将使用/var/lib/cdsw/tmp/docker目录。确保按照建议将Application block device挂载到/var/lib/cdsw,以便安装/升级不会出现问题。
  • 改进校验检查 - 改进了安装程序运行的校验检查(validation check)以及安装过程中显示的错误消息。Cloudera Data Science Workbench现在:
    • 检查根目录,Application Block Device和Docker Block Device是否有可用空间。
    • 检查DNS正向和反向查找是否适用于所提供的CDSW域和Master IP地址。
    • cdsw status和cdsw validate命令的错误信息显示会更友好,以便于调试。

7.命令行

  • cdsw logs - 以前,cdsw logs命令生成两个日志包 - 一个是纯文本,另一个对敏感信息进行了脱敏。对于CDSW1.5,该命令现在只生成一个包,默认情况下会对所有敏感信息进行脱敏。

要关闭日志文件的敏感信息脱敏,可以使用新的--skip-redaction参数,如下所示:

代码语言:javascript
复制
cdsw logs --skip-redaction

8.网络

  • CDSW现在使用DNS主机名(而不是IP地址)进行组件之间的内部通信。因此,为CDSW配置的通配符DNS主机名必须能被CDSW集群和浏览器解析。
  • CDSW现在可以在安装过程中启用IPv4转发(net.ipv4.conf.default.forwarding)。

1.1

Engine升级

CDSW1.5开始打包的基础engine镜像包括的R和Python的版本为(version 7):

R - 3.5.1

Python - 2.7.11, 3.6.1

Engine 7中预安装的软件包 - 参考:

代码语言:javascript
复制
https://www.cloudera.com/documentation/data-science-workbench/1-5-x/topics/cdsw_engines_packaging.html#cdsw_kernels

升级项目使用最新的Base Engine Images - 确保进行了测试,然后升级已有的项目到Base Image v7 (Project Settings > Engine) ,以确保能利用最新的一些bug修复。

另外,CDSW现在会在有新版本的engine可用时提醒你。确保你将有的项目升级到了Base Image v5 (Project Settings > Engine) 并进行测试,因为修复了一些bug。

请注意,如果你是在CDH6上使用CDSW,则升级到Base Image v7是必须的。

你使用的base engine image必须与CDH版本兼容。如果你是在Spark上运行工作负载,这一点尤为重要。较旧的base engine(v6及更低版本)无法支持最新版本的CDH6。这是因为这些engine指向Spark2 parcel。但是,在CDH6上,Spark现在打包为CDH6 parcel的一部分,不再支持单独安装Spark2 parcel。如果要在CDH6上运行Spark工作负载,则必须将项目升级到base engine 7(或更高版本)。

CDH5和CDH6上Spark工作负载的CDSW Base Engine兼容性

Base Engine Versions

CDH5

CDH6

Base engines 6 (and lower)

Yes

No

Base engines 7 (and higher)

Yes

Yes

2

CDSW1.5中不兼容的更改

废弃的配置 - CDH Parcel Directory

Admin > Engines的Site Administration面板中不再提供CDH parcel directory配置。根据你的部署,使用以下方法之一配置此属性:

  • CSD部署:如果你使用的是默认的parcel目录/opt/cloudera/parcels,则无需执行任何操作。如果要自定义parcel目录,需要在Cloudera Manager中进行配置,具体参考CM相关文档。
  • RPM部署:如果你使用的是默认的parcel目录/opt/cloudera/parcels,则无需执行任何操作。如果要自定义parcel目录,需要在master和worker节点的cdsw.conf文件中配置DISTRO_DIR属性。更改后运行cdsw restart。

3

CDSW1.5修复的问题

1.修复了RPM安装中忽略NO_PROXY设置的问题。Cloudera Bug: DSE-4444。

2.修复了由于Web pod的IP问题导致CDSW无法启动的问题。1.5通过在启动时启用IPv4转发来解决此问题。Cloudera Bug: DSE-4609

3.修复了在退出/崩溃后引擎会立即被删除,并且引擎日志不会存在的问题,这使得很难通过崩溃或自动重启来调试问题。Cloudera Bug: DSE-4008, DSE-4417

4.修复了在CSD部署中启动和停止CDSW的间歇性问题。Cloudera Bug: DSE-4426, DSE-4829

5.修复了CDSW报告大于2MB的文件的文件大小不正确的问题。Cloudera Bug: DSE-4531, DSE-4532

6.修复了Run New Experiment对话框未包含file selector,且必须手动输入脚本名称的问题。Cloudera Bug: DSE-3650

7.修复了底层Kubernetes进程耗尽资源导致OOM错误的问题。CDSW现在会为Kubernetes组件预留计算资源。Cloudera Bug: DSE-4896, DSE-5001

8.修复了PYSPARK3_PYTHON环境变量未按预期用于Python 3工作负载的问题。Cloudera Bug: DSE-4329

9.修复了当使用HTTP/HTTPS代理时,CDSW的engine(比如自定义的engine image)在本地不可用时,Docker命令会失败的问题。Cloudera Bug: DSE-4427

参考:

https://www.cloudera.com/documentation/data-science-workbench/1-5-x/topics/cdsw_release_notes.html#rel_150

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-02-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
专用宿主机
专用宿主机(CVM Dedicated Host,CDH)提供用户独享的物理服务器资源,满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统,购买之后,您可在其上灵活创建、管理多个自定义规格的云服务器实例,自主规划物理资源的使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档