前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CDSW1.3的新功能

CDSW1.3的新功能

作者头像
Fayson
修改2018-04-01 21:05:20
1.1K0
修改2018-04-01 21:05:20
举报
文章被收录于专栏:Hadoop实操Hadoop实操

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢

前两天Fayson介绍过《CDH5.14和CM5.14的新功能》,与CDH5.14同时发布的还有CDSW1.3,以下我们具体看看CDSW1.3的新功能。

1.CDSW1.3的新功能


1.增加对SUSE12 SP3的支持。

2.网站管理员现在可以添加自定义的模板项目。

3.CDSW1.3为Python3引入了一个新的环境变量PYSPARK3_PYTHON。Python2会话可以继续使用默认的PYSPARK_PYTHON变量。这样你就可以为Python2和Python3应用程序使用不同的变量。

4.因为Cloudera Manager默认可以管理CDSW服务,在CDSW1.3中,将CDSW的服务的配置项“Wildcard DNS Domain”改名为“Cloudera Data Science Workbench Domain”。

5.执行cdsw version命令后可以输出运行环境的类型– CSD还是RPM。

6.把log4j和spark-defaults样例配置增加到PySpark和Scala的模板项目里。

2.CDSW1.3修复的问题


1.修复了cdsw status命令无法运行所有必需的系统检查的问题。Cloudera Bug: DSE-3070

2.会话列表现在包含额外的元数据以帮助区分不同的会话。Cloudera Bug: DSE-2814

3.改进预安装验证检查,以检测防火墙和Java的设置问题。Cloudera Bug: DSE-2293

4.修复了启用TLS后cdsw status命令输出的问题。Cloudera Bug: DSE-3182

5.Cloudera的Spark2.2发行版2解决了PySpark应用程序只能在每个活动Workbench会话中运行一次的问题。Cloudera Bug: CDH-58475

6.修复了阻止渲染Bokeh plots的问题。Cloudera Bug: DSE-3134

7.修复了CDSW1.2.2中的一个问题,它会阻止WebSocket重新连接并导致控制台挂起。Cloudera Bug: DSE-3085

8.提升了使用CSD方式部署的CDSW服务重启的性能。Cloudera Bug: DSE-2937

3.CDSW1.3的不兼容性改动

3.1.使用Cloudera Director 2.7部署CDSW


虽然这个不是CDSW的改动,您应该注意到,Cloudera Director 2.7包含一个新的实例级设置,将mountAllUnmountedDisks属性设置为false:

代码语言:txt
复制
normalizationConfig {
 mountAllUnmountedDisks: false
}

这样Cloudera Director 2.7或者更高版本用户不需要在Cloudera Director服务器的application.properties文件中将lp.normalization.mountAllUnmountedDisksRequired设置为false,注意Cloudera Director 2.6依旧需要这个设置。

4.CDSW1.3已知的问题和限制

4.1.从CDSW1.1.X升级到1.3需要更改代理配置


如果使用代理服务器,则必须确保从代理中跳过Web和Livelog服务的IP地址。

根据你的部署,CSD或者RPM方式,将以下IP地址追加到Cloudera Manager CDSW服务的No Proxy属性或者cdsw.conf的NO_PROXY参数中。

代码语言:txt
复制
100.77.0.129
100.77.0.130

这些在安装指引中也做了说明。

Cloudera Bug: DSE-2948

4.2.Cloudera Manager集成


1.重启后,Cloudera Manager中的CDSW服务会显示为“良好(Good)”,即使CDSW Web应用程序可能还需要几分钟才能提供服务。

2.Cloudera Manager的诊断包有时候会搜集不到CDSW的数据。这是因为Cloudera Manager目前搜集诊断包数据的默认超时时间为3分钟。但对于CDSW来说,使用cdsw logs命令收集指标和日志可能需要3分钟以上。

该问题影响的版本:CDSW1.2.x,1.3.0

解决办法:使用以下办法修改CDSW数据收集的默认时间

  • 登录到CM
  • 进入CDSW服务
  • 点击“配置”
  • 搜索“Docker Daemon Diagnostics Collection Timeout”属性,并设置为5分钟。
  • 点击“保存”

另外你也可以在Master Nodes上通过cdsw logs命令直接生成诊断包数据,参考:

https://www.cloudera.com/documentation/data-science-workbench/latest/topics/cdsw_data_collection.html#cli

4.3.崩溃和挂起


1.应用程序块设备上(block device)的高I/O利用率可能导致应用程序停顿或无响应。建议用户直接从HDFS读取和写入数据,而不是将其存储在项目目录中。

2.在项目中安装ipywidgets或Jupyter notebook会导致Python引擎因为不对的配置而挂起。在R引擎终端删除已安装的库可以解决这个问题。

4.4.GPU支持


1.CDSW仅支持启用了CUDA的NVIDIA GPU卡。

2.异构的GPU硬件是不支持的,对于一个CDSW,你需要使用相同的GPU硬件。

3.机器重启后,检测不到GPUs。这个问题是因为某些GPU模块在重启后不能自动加载。

解决办法:在CDSW起来前,手动加载需要的模块。下面的命令会加载nvidia.ko模块,创建/dev/nvidiactl设备,并在/dev/nvidia0创建设备目录。同时还会创建/dev/nvidia-uvm和/dev/nvidia-uvm-tools设备,并给/etc/rc.modules分配执行权限。在有GPU硬件的所以机器上执行以下命令:

代码语言:txt
复制
# Manually load the required NVIDIA modules
sudo cat >> /etc/rc.modules <<EOMSG
/usr/bin/nvidia-smi
/usr/bin/nvidia-modprobe -u -c=0
EOMSG
# Set execute permission for /etc/rc.modules 
sudo chmod +x /etc/rc.modules

Cloudera Bug: DSE-2847

4.5.网络


1.CDSW主机上自定义的/etc/hosts不会被分发到运行会话和作业的容器中。Cloudera Bug: DSE-2598

2.如果localhost未被解析为127.0.0.1,CDSW的初始化(cdsw init)会失败。

3.CDSW不支持在127.0.0.1:53上运行DNS服务器。这个IP地址会被解析为CDSW容器中的容器本地主机(container localhost)。解决办法是使用non-loopback地址或者远程的DNS服务器。

4.因为libc的限制,在/etc/resolv.conf只支持两个DNS服务器。对于集群DNS,Kubernetes会使用另外一条。

4.6.安全


1.必须禁止SSH访问CDSW节点。不可信的用户如果可以SSH访问gateway节点,对于容器运行和应用程序的数据存储是不安全的。因此,出于安全和资源利用的原因,应该禁用不可信用户的SSH访问gateway节点。

2.TLS/SSL:TLStermination不支持证书颁发机构不属于用户信任存储的自签名证书。参考:

https://www.cloudera.com/documentation/data-science-workbench/latest/topics/cdsw_tls_ssl.html#limitations

3.TLS/SSL:CDSW不支持TLS的私钥加密。Cloudera Bug: DSE-1708

4.LDAP:目前不支持LDAP的group searchfilters。要将对CDSW的访问限制在某些组,可以在LDAP User Search Filter使用 "memberOf”或者等效的用户属性。Cloudera Bug: DSE-1616

5.Kerberos:不支持PowerBroker-equipped Active Directory。Cloudera Bug: DSE-1838

6.Kerberos:不支持在krb5.conf中使用Kerberos的插件模块。

7.Kerberos:在CDSW的krb5.conf修改default_ccache_name参数是不支持的。对于这个参数,仅仅支持使用默认的路径,/tmp/krb5cc_${uid}。

8.Kerberos:当你上传一个Kerberos的keytab到CDH集群认证的时候,即使身份认证成功,CDSW也可能会在屏幕的右下角显示一个短暂的错误信息(“已取消”)。可以忽略这个错误。Cloudera Bug: DSE-2344

9.Kerberos:CDSW不支持FreeIPA的KDC。Cloudera Bug: DSE-1482

4.7.作业APIs


1.CDSW不支持更改API key或者具有多个API keys。

2.目前还不支持使用作业API来创建作业,停止作业或获得作业状态。

4.8.引擎


1.CDSW不支持Autofs挂载。Cloudera Bug: DSE-2238

2.CDSW不支持从需要Docker凭据的registries中提取镜像。Cloudera Bug: DSE-1521

3.当使用Conda安装Python包时,你必须指定可以匹配到打包的引擎镜像的Python版本(2.7.11和3.6.1)。如果不指定,项目中将不能使用conda安装的Python版本。Pip(pip和pip3)没有这个问题。

4.9.可用性


1.在100个用户登录并创建进程的情况下,可能会达到系统的nproc和nofile限制。 使用ulimits或其他方法来增加最大进程数,以及打开文件数。

2.重启时,CDSW节点可能需要很长的时间才能准备好,大约30分钟。

3.长时间运行的操作(例如fork和clone)可能会在项目较大或连接超出反向代理的HTTP超时时间内超时。

4.编辑器不支持Scala kernel的自动填充。

5.Scala和R代码有时可能会在编辑器中错误地缩进。Cloudera Bug: DSE-1218

参考:

https://www.cloudera.com/documentation/data-science-workbench/latest/topics/cdsw_release_notes.html#rel_130

https://www.cloudera.com/documentation/data-science-workbench/latest/topics/cdsw_known_issues.html#known_issues_limitations

提示:代码块部分可以左右滑动查看噢 为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-02-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
专用宿主机
专用宿主机(CVM Dedicated Host,CDH)提供用户独享的物理服务器资源,满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统,购买之后,您可在其上灵活创建、管理多个自定义规格的云服务器实例,自主规划物理资源的使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档