前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CCA175 考试总结

CCA175 考试总结

原创
作者头像
ZHANGHAO
修改2019-04-19 15:22:19
2.2K25
修改2019-04-19 15:22:19
举报
文章被收录于专栏:张浩的专栏

今天(2019.01.29)考了CCA175考试,针对考试中一些考点和技巧做出总结

  1. 考试的题目还是很基础的,进行一些转换,然后把结果输出出来;
  2. 先熟读题目,再进行操作,不要卡在一道题上浪费时间,要是一时某道题做不出来,可以先做别的题,如果是9道题的话,能做过7道基本上就合格了;
  3. Sqoop的导入和导出必考,要熟悉Sqoop的压缩和保存的文件格式;
  4. 给的数据文件基本上都是textFile,所以要熟悉RDD和DF的转换以及各种操作 ,有特定分隔符的textFile可以用spark.read.option("delimiter","###").csv(path)的方式进行读取(###换成指定的分隔符,\n或者逗号),如需指定特定的列名的话,还可以toDF("columnName1","columnName2")的方式去指定列名;
  5. 文件要求保存成特定分隔符的textFile的话,可以 df.rdd.map(_.toSeq.map(_+"").reduce(_+"###"+_)).saveAsTextFile(path)(###换成指定的分隔符,\n或者逗号);
  6. 文件要求使用snappy的压缩的话,可以在df.write.option("compression","snappy")这样使用snappy压缩保存的文件内容;
  7. 熟悉Hive外部表的创建和Hive表数据的导入;
  8. 写的代码改一改可以供后面的题目复用,所以可以先用文本编辑器把写的代码保存一下;
  9. 考试环境屏幕很小,环境也比较卡,如遇到操作不了的情况,可以点击刷新按钮,刷新考试环境,刷新后会快一些。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档