在数据挖掘中,关联分析主要有区别对待事物之间的关联性,不同的关联程度在表现上往往是区别对待。生活应用中,人们更有兴趣知道事物之间的强关联性而忽略弱关系性,从而做出有意义,有价值的决策。然而人们也不得不面对若干问题。比如,如何用参数去定义强关联性;有意义的参数如何界定等问题。本文通过实验来说明影响参数的主要因素,以及如何去选择参数值等问题。实验结果表明,在数据不同规模下选择相同的参数值并不会产生相同的效益,因此如何界定频繁项集参数以此产生最大效益是本文的意义所在。
1.引言
在各行各业中,人们希望了解事物之间的强关联性,通过对关联性的了解与掌握,更加清晰知道如何去做出一个有意义,有价值的决策,这也是决策支持系统中一个非常重要的内容--关联分析。比如在电信行业,如何推出适合不同类型人群的套餐模式,使得每个人为电信创造更大的价值。在这个问题中,需要解决的问题主要有:人们的电信消费数据达到一个什么量才能称为一个类,以此来界定人们的消费习惯;通过消费习惯如何设定套餐消费模式。这些问题影射出关联分析中两个比较重要的问题。第一:如何通过支持度界定事物的频繁度;第二:如何设定可信度值去权衡事物之间有价值的联系。这两个问题都涉及到参数给定的问题。
本文的意义主要就是如何界定频繁项集参数以此产生最大的经济效益。考虑支持度值的设定,应该考虑的是在多大的数据规模下去界定支持度值。除了数据因素,其它因素也会对事物的支持度值产生影响,比如商品在不同季节销售的情况是不一样的。那么在不同季节对支持度值的设定应该也会不一样。因此设计支持度值必须要有一定的原则。
领取专属 10元无门槛券
私享最新 技术干货