本期的文章源于工作中,需要固定label的位置,便于在spark模型中添加或删除特征,而不影响模型的框架或代码。
这是我的工作环境的下情况,对你读者的情况,需要具体分析。
sql = '''
select
*
from
tables_names -- hdfs下的表名
where
条件判断
'''
Data = DB.impala_query(sql) -- 是DataFrame格式
**注意:**DB是自己写的脚本文件
前面生成了DataFrame
mid = df['Mid']
df.drop(labels=['Mid'], axis=1,inplace = True)
df.insert(0, 'Mid', mid) # 插在第一列后面,即为第二列
df
df.fillna(0)
未完待补充完善。