前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark的机器学习算法mlib的例子运行

Spark的机器学习算法mlib的例子运行

作者头像
岑玉海
发布2018-02-28 17:18:31
9310
发布2018-02-28 17:18:31
举报
文章被收录于专栏:岑玉海

  Spark自带了机器学习的算法mlib,页面网址 http://spark.incubator.apache.org/docs/latest/mllib-guide.html

  但是运行的时候,遇到了很多问题,着实让我头疼了很久,不过最后还是解决了,下面说一下这两个问题吧。

  第一个demo运行到val model = SVMWithSGD.train(parsedData, numIterations)这一句的时候遇到了lzo的jar包。

  我是这么解决的,方法不是很好,我修改了spark-env.sh这个文件,添加了SPARK_CLASSPATH=/usr/lib/spark/ext/hadoop-lzo-0.5.0.jar这句话就ok了

  这种方式不是很好,比如我指定某个目录的话,它是不认的,只能一个jar包一个jar包的指定,也可以学习下面的方法。

  这次是遇到了jar包的问题,Spark搭配的是hadoop1.0.4,搭配hadoop2.2.0的时候就可能会出现这个问题,先放一下错误信息,方便大家搜索。

代码语言:javascript
复制
java.lang.NoSuchMethodError: org.apache.commons.io.IOUtils.closeQuietly

  最后被我查出来是commons.io这个jar包引起的,但是Spark自己下的话,它也下了commons-io-2.1.jar这个jar包,但是它并没有使用这个jar包,编译过的Spark会把所需的jar包全部合并到一起,最后打成一个类似spark-assembly_2.9.3-0.8.1-incubating-hadoop2.2.0.jar的jar包。

  这里面就涉及到怎么合并两个jar包的问题了,我是这么处理的,分别解压两个jar包,用commons-io-2.1.jar的解压出来的目录覆盖spark-assembly_2.9.3-0.8.1-incubating-hadoop2.2.0.jar解压出来的相应的目录,然后在加压出来的根目录下使用下面的命令,重新打包。

代码语言:javascript
复制
jar -cvf spark-assembly_2.9.3-0.8.1-incubating-hadoop2.2.0.jar *;

  替换掉原来的jar包就运行就正常了。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2014-02-04 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档