我想使用Apriori对交易数据进行亲和力分析。我有一个表,其中包含订单及其信息的列表。我主要需要使用OrderID和ProductID属性,它们的格式如下
OrderID ProductID
1个A
1 B
1 C
2 A
2 C
3 A
Weka要求您为每个产品ID创建一个名义属性,并使用如下所示的true或false值指定该项目是否出现在订单中:
1,TRUE,TRUE,TRUE
2,TRUE,FALSE,TRUE
3,真,假,假
我的数据集包含大约10k条记录...大约3k种不同的产品。有没有人能建议一种以这种格式创建数据集的方法?(除了手动耗时的方式...)
发布于 2013-05-15 05:10:51
写一个脚本来转换它怎么样?
一种好的脚本语言,比如Python,应该少于10行。
或者,您可以根据需要研究旋转关系的选项。
无论哪种方式,这都是一个直接的编程任务,所以我在这里看不到您的问题。
发布于 2013-06-06 11:03:35
显然,您需要转换数据。最简单的方法:编写一个软件,以您最熟悉的编程语言读取文件,然后以适当的格式写入文件。因为它是文本文件,所以不应该太复杂。
顺便说一句,如果你想要更多的模式挖掘和关联挖掘算法,而不仅仅是Weka中的Apriori,你可以查看my software SPMF ( http://www.philippe-fournier-viger.com/spmf/ ),它也是用Java语言编写的,也可以读取ARFF文件,并且提供了大约50种专门用于模式挖掘的算法(Apriori FPGrowth和许多其他算法)。
发布于 2013-06-10 23:51:14
您的数据按原样正确格式化,以便使用ARULES包(和apriori函数)在R中实现。你可以考虑检查一下,尤其是。如果你不能进入脚本编码的话。
https://stackoverflow.com/questions/16533193
复制相似问题