在生产环境中, 使用shell脚本完成一次etl操作
1.定义一个etl函数, 里面传入json行数据, 用json.loads加载行数据,并对行数据进行判断,如果没有行数据,或data字段没有在行数据里..., 就直接返回空的结果, 否则就继续往下执行
2.接着获取行里的数据, 用for循环判断, 如果包含某个值, 我就将变量赋值取出, 装在集合容器里
3.设置sparksession会话, 并enableHiveSupport..., 我用的是hiveonspark模式,
4.初始化rdd, 从大数据emr集群中(也可能是从实时系统kafka读取数据)加载数据到rdd , 然后用自己自定义的etl解析过滤
5.将rdd转为df,...createDateFream()要传两个参数,一个是rdd,一个是schema信息
6.将df创建临时表 createOrReplaceTemView()
7.将临时表表的数据加载到hive表中, 完成整个...= SparkSession.builder.appName("程序名" % statdate分区日期)
.enableHiveSupport()
.getOrCreate()
初始化