问推荐:日志用户操作和数据挖掘it -好的解决方案
EN

Stack Overflow用户

提问于 2012-08-21 05:29:11

回答 3查看 360关注 0票数 10

我计划记录所有的用户操作，如浏览的页面，标签等。

什么是一个很好的数据的精益解决方案？？挖掘这个数据以获取。

像这样说：

显示查看URL中的所有兴趣(假设我知道相关的标记)
找出有相似兴趣的人。例如，约翰和简查看了与汽车有关的网址。

编辑：

实际上，我在这个领域缺乏知识，这是我起步的一个限制因素。

让我换个说法。

比如说像stackoverflow或Quora这样的网站。我所有的浏览历史，通过不同的问题都被记录下来，Quora做了一个数据挖掘工作，通过它和填充我的流与相关的问题。我经历了与养育有关的问题，下一次登录时，我看到了很多关于养育子女的问题。亚马逊购物也是如此。我浏览手表和混频器，两天后，他们寄给我的相关购物项目的邮件，我感兴趣。

我的问题是，他们如何有效地存储这些数据，然后进行数据挖掘，以显示下一个相关的数据集。

algorithm

machine-learning

recommendation-engine

云点播特惠1元起

提供制作上传、存储、转码、媒体处理、媒体 AI、加速分发播放、版权保护等一体化的高品质媒体服务

回答 3

Stack Overflow用户

发布于 2012-08-24 04:34:13

数据挖掘是一种需要巨大的存储空间和巨大的计算能力的方法。

我举一个例子：

想象一下，你是沃尔玛这样的大型连锁超市的老板，你想知道如何把你的产品放在你的市场上，这样消费者在进入你的商店时就会花很多钱。

首先，你需要一个主意。你的想法是寻找不同产品类别的产品，这些产品通常是一起购买的。如果你有这样的一对产品，你应该把这些产品放在尽可能远的地方。如果顾客想同时购买这两种产品，他/她必须走遍你的整个商店，在这条路上，你可以放置其他适合这两种产品之一的产品，但并不是经常出售。一些客户会看到这个产品并购买它，而这个额外产品的收入就是您的数据处理的收入。

所以你需要大量的数据。你必须在你所有的商店里存储从你所有顾客的购买中得到的所有数据。当一个人买了一瓶牛奶、一根香肠和一些面包时，你需要储存已经售出的商品，数量和价格。如果你想被注意到牛奶和香肠是一起买的，那么每一次购买都需要自己的身份证。

所以你有大量的购买数据。你有很多不同的产品。假设你在你的商店里销售10.000种不同的产品。每一种产品都可以与其他产品配对。这使得10,000,000/2= 50,000,000 (5,000万)对。对于每对可能的配对，你必须找出，如果它包含在一个购买。但也许你认为周六下午的顾客和周三晚些时候的顾客不一样。所以你也要储存购买的时间。梅比，你定义了一个星期的20个时间切片。这就创造了5000万* 20 =10亿条记录。因为孟菲斯人可能买的东西和贝弗利山的人不同，所以你也需要在你的数据中找到合适的地方。比方说，你定义了50个区域，所以在你的数据库中有500亿条记录。

然后你处理你所有的数据。如果一个客户在一次购买中确实购买了20个产品，那么20 * 19 /2= 190对。对于每一对，您增加计数器的时间和地点的购买在您的数据库。但是你应该用什么来增加计数器呢？只差1分钟？还是通过购买的产品数量来计算？但你有两种产品。你要取两者之和吗？还是最大的？最好您使用多个计数器，以便能够以您所能想到的所有方式来计数它。

你还得做点别的:顾客购买更多的牛奶和面包，然后是香槟和鱼子酱。因此，如果他们选择任意的产品，当然这对牛奶面包的数量比一对香槟鱼子酱要高。所以当你分析你的数据时，你也必须考虑其中的一些影响。

然后，当您完成所有这些操作时，您将执行数据处理-查询。您选择事实计数与估计计数的比率最高的一对。您可以从有数十亿条记录的数据库表中选择它。这可能需要几个小时来处理。所以，在提交查询之前，如果您的查询确实是您想要知道的，请仔细考虑！

你可能会发现，在农村环境下，人们在星期六下午买更多的啤酒和尿布，比你想象的要多。所以你只需要在商店的一端放啤酒，在另一端放尿布，这让很多人在你的整个商店里看到(希望买到)许多其他东西，如果啤酒和尿布放在一起，他们就不会看到(或者买)。

请记住:您的数据处理的成本只包括您的客户的额外优惠！

结论：