要求:利用pandas、sklearn、matplotlib对air_data.csv中的数据进行航空公司客户价值分析。主要包括:
1)利用pandas读取air_data.csv文件中的数据。
2)利用pandas进行数据探索,如利用shape属性,head( )和describe( )函数等。
3)利用pandas进行数据预处理:丢弃票价为空的记录,保留票价非0,或者平均折扣率不为0且总飞行公里数大于0的记录。
4)利用pandas构建LRFMC模型,以2014-03-31为结束时间。其中:L为客户关系长度(会员入会时间距观测窗口结束的月数),R为消费时间间隔(客户最近一次乘坐公司飞机距观测窗口结束的月数),F为消费频率(客户在观测窗口内乘坐公司飞机的次数),M为飞行里程(客户在观测窗口内累计的飞行里程),C为折扣系数的平均值(客户在观测窗口内乘坐舱位所对应的折扣系数的 平均值)。
5)利用sklearn进行数据标准化处理
6)利用sklearn中的KMeans聚类算法,对客户进行分群处理,并找出聚类中心和聚类类别。
7)利用matplotlib绘制雷达图,进行客户群体分析。









1.第一簇人群,4654人,最大的特点就是平均折扣率都是最高的,应该是属于乘坐高等舱的商务人员,应该重点保持的对象,也是需要重点发展的对象,另外应该积极采取相关的优惠政策是他们的乘坐次数增加
2.第二簇人群,5343人,总里程和飞行次数都是最多的,是重点保持对象
3.第三簇人群,24480人,各方面的数据都是比较低的,属于一般或低价值用户
4.第四簇人群,12035人,最大的特点是时间间隔差值最大,分析可能是“季节型客户”,一年中在某个时间段需要多次乘坐飞机进行旅行,其他的时间则出行的不多,这类客户我们需要在保持的前提下,进行一定的发展;
5.第五簇人群,15670人,最大的特点就是入会的时间较长,属于老客户按理说平均折扣率应该较高才对,但是观察窗口的平均折扣率较低,而且总里程和总次数都不高,分析可能是流失的客户,需要在争取一下,尽量让他们“回心转意”;
