spark

平凡的学生族

发布于 2019-05-25 09:26:53

6370

发布于 2019-05-25 09:26:53

文章被收录于专栏：后端技术

搭建spark集群

https://www.cnblogs.com/freeweb/p/5773619.html

idea 创建maven项目

配置scala环境： https://www.cnblogs.com/luguoyuanf/p/19c1e4d88a094c07331e912f40ed46c7.html 然后右键，run 'xx'即可运行(要保证有main函数): https://www.cnblogs.com/kevinlogs/p/9175602.html maven导入spark、hadoop组件 https://blog.csdn.net/yu0_zhang0/article/details/80112846 另外参考： https://www.cnblogs.com/wangjianwei/articles/9722234.html cannot resolve symbol: https://blog.csdn.net/qq_23876393/article/details/78851061 确认spark与scala对应版本关系： https://mvnrepository.com/artifact/org.apache.spark/spark-core

此处有2.12和2.11标签，如果是spark2.4且scala2.11，要点进2.11标签

试图运行wordcount

NoClassDefFoundError: scala/Product$class

Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error

https://stackoverflow.com/questions/53260980/java-sparksql-2-4-0-arrayindexoutofboundsexception-error

读取文件时连接错误java.net.ConnectException

url本来是

val textFile=sc.textFile("hdfs://127.0.0.1:9000/wc/temp")

改成以下后就好了，其中hadoop01会被映射到192.168.xx.xx(本地的私有ip)

val textFile=sc.textFile("hdfs://hadoop01:9000/wc/temp")

版本问题

scala与spark版本要对应，maven导入的sdk也要版本对应

运行方式

在本地测试则master设为本地运行在集群测试则master设为集群运行

参考资源

《Spark快速大数据分析》
《Spark和核心技术与高级应用》
北风网相关视频

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2019.03.08 ，如有侵权请联系 cloudcommunity@tencent.com 删除

网络安全

https

scala

html

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

spark

spark

搭建spark集群

idea 创建maven项目

试图运行wordcount

Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error

读取文件时连接错误java.net.ConnectException

版本问题

运行方式

参考资源

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐