关于知识块学习(建议直接网上搜索先学一遍有初步认识,之后有兴趣/机会可以再深入学):Hadoop、函数式编程,语言学python、spark-sql、Scala(这三个都是简单粗暴地过了几遍,写不出来的时候继续度娘谷歌),算法方面当时主要接触了聚类和随机森林。关于大数据相关工作:excel下给指标取字段名(因为比较多,记一下防忘)、计算方法(防开始算的时候思路乱)、数据来源(有时候不能直接用源表,需要自己做中间表方便之后的计算)、字段分类;各种取数据合表方便之后计算(主要用了python、sql);计算(Scala、python、sql都可能用到);最坑爹的部分找出各种结果值不合理的字段一步一步倒着追溯哪一步出错,改了再顺一遍,改不出来的记excel;建模(部分和前面夹杂着进行)。
领取专属 10元无门槛券
私享最新 技术干货