通常,Apriori算法以矩阵的形式接收输入,如下所示:
TID A B C D E
T1 1 1 1 0 0
T2 1 1 1 1 1
T3 1 0 1 1 0
T4 1 0 1 1 1
T5 1 1 1 1 0 而我的输入是XML数据,其一般形式为:
 <article key="tr/gte/TR-0263-08-94-165">
<author>Frank Manola</author>
<title>An Evaluation of Object-Oriented DBMS Developments: 1994 Edition.</title>
<journal>GTE Laboratories Incorporated</journal>
<volume>TR-0263-08-94-165</volume>
<month>August</month>
<year>1994</year>
</article>如何将这些数据转换为算法可接受的合适格式?任何建议。
谢谢
发布于 2015-01-18 14:41:49
假设您正在使用Python,最好使用元素树XML解析器(包含在下面的文档中)。这允许您将XML数据解析为python字典,然后可以根据需要进行翻译。注意,如果您的XML数据文件非常大,使用iterparse可以很方便地避免大量的内存需求。
https://docs.python.org/2/library/xml.etree.elementtree.html
https://stackoverflow.com/questions/28007702
复制相似问题