CDSW1.3的新功能

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

Fayson的github:https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

前两天Fayson介绍过《CDH5.14和CM5.14的新功能》,与CDH5.14同时发布的还有CDSW1.3,以下我们具体看看CDSW1.3的新功能。

1.CDSW1.3的新功能

1.增加对SUSE12 SP3的支持。

2.网站管理员现在可以添加自定义的模板项目。

3.CDSW1.3为Python3引入了一个新的环境变量PYSPARK3_PYTHON。Python2会话可以继续使用默认的PYSPARK_PYTHON变量。这样你就可以为Python2和Python3应用程序使用不同的变量。

4.因为Cloudera Manager默认可以管理CDSW服务,在CDSW1.3中,将CDSW的服务的配置项“Wildcard DNS Domain”改名为“Cloudera Data Science Workbench Domain”。

5.执行cdsw version命令后可以输出运行环境的类型– CSD还是RPM。

6.把log4j和spark-defaults样例配置增加到PySpark和Scala的模板项目里。

2.CDSW1.3修复的问题

1.修复了cdsw status命令无法运行所有必需的系统检查的问题。Cloudera Bug: DSE-3070

2.会话列表现在包含额外的元数据以帮助区分不同的会话。Cloudera Bug: DSE-2814

3.改进预安装验证检查,以检测防火墙和Java的设置问题。Cloudera Bug: DSE-2293

4.修复了启用TLS后cdsw status命令输出的问题。Cloudera Bug: DSE-3182

5.Cloudera的Spark2.2发行版2解决了PySpark应用程序只能在每个活动Workbench会话中运行一次的问题。Cloudera Bug: CDH-58475

6.修复了阻止渲染Bokeh plots的问题。Cloudera Bug: DSE-3134

7.修复了CDSW1.2.2中的一个问题,它会阻止WebSocket重新连接并导致控制台挂起。Cloudera Bug: DSE-3085

8.提升了使用CSD方式部署的CDSW服务重启的性能。Cloudera Bug: DSE-2937

3.CDSW1.3的不兼容性改动

3.1.使用Cloudera Director 2.7部署CDSW

虽然这个不是CDSW的改动,您应该注意到,Cloudera Director 2.7包含一个新的实例级设置,将mountAllUnmountedDisks属性设置为false:

这样Cloudera Director 2.7或者更高版本用户不需要在Cloudera Director服务器的application.properties文件中将lp.normalization.mountAllUnmountedDisksRequired设置为false,注意Cloudera Director 2.6依旧需要这个设置。

4.CDSW1.3已知的问题和限制

4.1.从CDSW1.1.X升级到1.3需要更改代理配置

如果使用代理服务器,则必须确保从代理中跳过Web和Livelog服务的IP地址。

根据你的部署,CSD或者RPM方式,将以下IP地址追加到Cloudera Manager CDSW服务的No Proxy属性或者cdsw.conf的NO_PROXY参数中。

这些在安装指引中也做了说明。

Cloudera Bug: DSE-2948

4.2.Cloudera Manager集成

1.重启后,Cloudera Manager中的CDSW服务会显示为“良好(Good)”,即使CDSW Web应用程序可能还需要几分钟才能提供服务。

2.Cloudera Manager的诊断包有时候会搜集不到CDSW的数据。这是因为Cloudera Manager目前搜集诊断包数据的默认超时时间为3分钟。但对于CDSW来说,使用cdsw logs命令收集指标和日志可能需要3分钟以上。

该问题影响的版本:CDSW1.2.x,1.3.0

解决办法:使用以下办法修改CDSW数据收集的默认时间

登录到CM

进入CDSW服务

点击“配置”

搜索“Docker Daemon Diagnostics Collection Timeout”属性,并设置为5分钟。

点击“保存”

另外你也可以在Master Nodes上通过cdsw logs命令直接生成诊断包数据,参考:

https://www.cloudera.com/documentation/data-science-workbench/latest/topics/cdsw_data_collection.html#cli

4.3.崩溃和挂起

1.应用程序块设备上(block device)的高I/O利用率可能导致应用程序停顿或无响应。建议用户直接从HDFS读取和写入数据,而不是将其存储在项目目录中。

2.在项目中安装ipywidgets或Jupyter notebook会导致Python引擎因为不对的配置而挂起。在R引擎终端删除已安装的库可以解决这个问题。

4.4.GPU支持

1.CDSW仅支持启用了CUDA的NVIDIA GPU卡。

2.异构的GPU硬件是不支持的,对于一个CDSW,你需要使用相同的GPU硬件。

3.机器重启后,检测不到GPUs。这个问题是因为某些GPU模块在重启后不能自动加载。

解决办法:在CDSW起来前,手动加载需要的模块。下面的命令会加载nvidia.ko模块,创建/dev/nvidiactl设备,并在/dev/nvidia0创建设备目录。同时还会创建/dev/nvidia-uvm和/dev/nvidia-uvm-tools设备,并给/etc/rc.modules分配执行权限。在有GPU硬件的所以机器上执行以下命令:

Cloudera Bug: DSE-2847

4.5.网络

1.CDSW主机上自定义的/etc/hosts不会被分发到运行会话和作业的容器中。Cloudera Bug: DSE-2598

2.如果localhost未被解析为127.0.0.1,CDSW的初始化(cdsw init)会失败。

3.CDSW不支持在127.0.0.1:53上运行DNS服务器。这个IP地址会被解析为CDSW容器中的容器本地主机(container localhost)。解决办法是使用non-loopback地址或者远程的DNS服务器。

4.因为libc的限制,在/etc/resolv.conf只支持两个DNS服务器。对于集群DNS,Kubernetes会使用另外一条。

4.6.安全

1.必须禁止SSH访问CDSW节点。不可信的用户如果可以SSH访问gateway节点,对于容器运行和应用程序的数据存储是不安全的。因此,出于安全和资源利用的原因,应该禁用不可信用户的SSH访问gateway节点。

2.TLS/SSL:TLStermination不支持证书颁发机构不属于用户信任存储的自签名证书。参考:

https://www.cloudera.com/documentation/data-science-workbench/latest/topics/cdsw_tls_ssl.html#limitations

3.TLS/SSL:CDSW不支持TLS的私钥加密。Cloudera Bug: DSE-1708

4.LDAP:目前不支持LDAP的group searchfilters。要将对CDSW的访问限制在某些组,可以在LDAP User Search Filter使用"memberOf”或者等效的用户属性。Cloudera Bug: DSE-1616

5.Kerberos:不支持PowerBroker-equipped Active Directory。Cloudera Bug: DSE-1838

6.Kerberos:不支持在krb5.conf中使用Kerberos的插件模块。

7.Kerberos:在CDSW的krb5.conf修改default_ccache_name参数是不支持的。对于这个参数,仅仅支持使用默认的路径,/tmp/krb5cc_$。

8.Kerberos:当你上传一个Kerberos的keytab到CDH集群认证的时候,即使身份认证成功,CDSW也可能会在屏幕的右下角显示一个短暂的错误信息(“已取消”)。可以忽略这个错误。Cloudera Bug: DSE-2344

9.Kerberos:CDSW不支持FreeIPA的KDC。Cloudera Bug: DSE-1482

4.7.作业APIs

1.CDSW不支持更改API key或者具有多个API keys。

2.目前还不支持使用作业API来创建作业,停止作业或获得作业状态。

4.8.引擎

1.CDSW不支持Autofs挂载。Cloudera Bug: DSE-2238

2.CDSW不支持从需要Docker凭据的registries中提取镜像。Cloudera Bug: DSE-1521

3.当使用Conda安装Python包时,你必须指定可以匹配到打包的引擎镜像的Python版本(2.7.11和3.6.1)。如果不指定,项目中将不能使用conda安装的Python版本。Pip(pip和pip3)没有这个问题。

4.9.可用性

1.在100个用户登录并创建进程的情况下,可能会达到系统的nproc和nofile限制。使用ulimits或其他方法来增加最大进程数,以及打开文件数。

2.重启时,CDSW节点可能需要很长的时间才能准备好,大约30分钟。

3.长时间运行的操作(例如fork和clone)可能会在项目较大或连接超出反向代理的HTTP超时时间内超时。

4.编辑器不支持Scala kernel的自动填充。

5.Scala和R代码有时可能会在编辑器中错误地缩进。Cloudera Bug: DSE-1218

参考:

https://www.cloudera.com/documentation/data-science-workbench/latest/topics/cdsw_release_notes.html#rel_130

https://www.cloudera.com/documentation/data-science-workbench/latest/topics/cdsw_known_issues.html#known_issues_limitations

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180201G013GX00?refer=cp_1026

扫码关注云+社区