我计划记录所有的用户操作,如浏览的页面,标签等。
什么是一个很好的数据的精益解决方案??挖掘这个数据以获取。
像这样说:
编辑:
实际上,我在这个领域缺乏知识,这是我起步的一个限制因素。
让我换个说法。
比如说像stackoverflow或Quora这样的网站。我所有的浏览历史,通过不同的问题都被记录下来,Quora做了一个数据挖掘工作,通过它和填充我的流与相关的问题。我经历了与养育有关的问题,下一次登录时,我看到了很多关于养育子女的问题。亚马逊购物也是如此。我浏览手表和混频器,两天后,他们寄给我的相关购物项目的邮件,我感兴趣。
我的问题是,他们如何有效地存储这些数据,然后进行数据挖掘,以显示下一个相关的数据集。
发布于 2012-08-24 04:34:13
数据挖掘是一种需要巨大的存储空间和巨大的计算能力的方法。
我举一个例子:
想象一下,你是沃尔玛这样的大型连锁超市的老板,你想知道如何把你的产品放在你的市场上,这样消费者在进入你的商店时就会花很多钱。
首先,你需要一个主意。你的想法是寻找不同产品类别的产品,这些产品通常是一起购买的。如果你有这样的一对产品,你应该把这些产品放在尽可能远的地方。如果顾客想同时购买这两种产品,他/她必须走遍你的整个商店,在这条路上,你可以放置其他适合这两种产品之一的产品,但并不是经常出售。一些客户会看到这个产品并购买它,而这个额外产品的收入就是您的数据处理的收入。
所以你需要大量的数据。你必须在你所有的商店里存储从你所有顾客的购买中得到的所有数据。当一个人买了一瓶牛奶、一根香肠和一些面包时,你需要储存已经售出的商品,数量和价格。如果你想被注意到牛奶和香肠是一起买的,那么每一次购买都需要自己的身份证。
所以你有大量的购买数据。你有很多不同的产品。假设你在你的商店里销售10.000种不同的产品。每一种产品都可以与其他产品配对。这使得10,000,000/2= 50,000,000 (5,000万)对。对于每对可能的配对,你必须找出,如果它包含在一个购买。但也许你认为周六下午的顾客和周三晚些时候的顾客不一样。所以你也要储存购买的时间。梅比,你定义了一个星期的20个时间切片。这就创造了5000万* 20 =10亿条记录。因为孟菲斯人可能买的东西和贝弗利山的人不同,所以你也需要在你的数据中找到合适的地方。比方说,你定义了50个区域,所以在你的数据库中有500亿条记录。
然后你处理你所有的数据。如果一个客户在一次购买中确实购买了20个产品,那么20 * 19 /2= 190对。对于每一对,您增加计数器的时间和地点的购买在您的数据库。但是你应该用什么来增加计数器呢?只差1分钟?还是通过购买的产品数量来计算?但你有两种产品。你要取两者之和吗?还是最大的?最好您使用多个计数器,以便能够以您所能想到的所有方式来计数它。
你还得做点别的:顾客购买更多的牛奶和面包,然后是香槟和鱼子酱。因此,如果他们选择任意的产品,当然这对牛奶面包的数量比一对香槟鱼子酱要高。所以当你分析你的数据时,你也必须考虑其中的一些影响。
然后,当您完成所有这些操作时,您将执行数据处理-查询。您选择事实计数与估计计数的比率最高的一对。您可以从有数十亿条记录的数据库表中选择它。这可能需要几个小时来处理。所以,在提交查询之前,如果您的查询确实是您想要知道的,请仔细考虑!
你可能会发现,在农村环境下,人们在星期六下午买更多的啤酒和尿布,比你想象的要多。所以你只需要在商店的一端放啤酒,在另一端放尿布,这让很多人在你的整个商店里看到(希望买到)许多其他东西,如果啤酒和尿布放在一起,他们就不会看到(或者买)。
请记住:您的数据处理的成本只包括您的客户的额外优惠!
结论:
发布于 2012-08-29 22:08:46
将每个事务存储为标记向量(即访问包含这些标记的页面)。然后对这些数据进行关联分析(我可以推荐Weka),使用可用的“关联”算法查找关联。当然,有效性取决于许多不同的事情。
我大学的一位男生告诉我,通常你可以简单地创建一个人购买的所有产品的向量,并将其与其他人的向量进行比较,得到不错的推荐。这是将用户表示为他们购买的产品或他们访问的页面,例如Jaccard相似度计算。如果“人”是相似的,那么看看他们购买的产品,而这个人却没有。(可能是同类人群中最常见的)。
存储是一个完全不同的游戏,在不同的关系数据库中实现的KD树等矢量数据有很多很好的索引。
上一门关于数据挖掘的课程:)或者只是阅读一本优秀的教科书(我读过彭宁、坦等人的“数据挖掘概论”及其优点)。
对于存储所有对的产品等,当然没有做到这一点,并使用更有效的算法,基于支持和置信度,以修剪搜索空间。
发布于 2012-08-26 11:45:52
我应该说推荐是机器学习的问题。如何存储数据取决于您选择的算法。
https://stackoverflow.com/questions/12055953
复制