首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >推荐:日志用户操作和数据挖掘it -好的解决方案

推荐:日志用户操作和数据挖掘it -好的解决方案
EN

Stack Overflow用户
提问于 2012-08-21 05:29:11
回答 3查看 360关注 0票数 10

我计划记录所有的用户操作,如浏览的页面,标签等。

什么是一个很好的数据的精益解决方案??挖掘这个数据以获取。

像这样说:

  • 显示查看URL中的所有兴趣(假设我知道相关的标记)
  • 找出有相似兴趣的人。例如,约翰和简查看了与汽车有关的网址。

编辑:

实际上,我在这个领域缺乏知识,这是我起步的一个限制因素。

让我换个说法。

比如说像stackoverflow或Quora这样的网站。我所有的浏览历史,通过不同的问题都被记录下来,Quora做了一个数据挖掘工作,通过它和填充我的流与相关的问题。我经历了与养育有关的问题,下一次登录时,我看到了很多关于养育子女的问题。亚马逊购物也是如此。我浏览手表和混频器,两天后,他们寄给我的相关购物项目的邮件,我感兴趣。

我的问题是,他们如何有效地存储这些数据,然后进行数据挖掘,以显示下一个相关的数据集。

EN

回答 3

Stack Overflow用户

发布于 2012-08-24 04:34:13

数据挖掘是一种需要巨大的存储空间和巨大的计算能力的方法。

我举一个例子:

想象一下,你是沃尔玛这样的大型连锁超市的老板,你想知道如何把你的产品放在你的市场上,这样消费者在进入你的商店时就会花很多钱。

首先,你需要一个主意。你的想法是寻找不同产品类别的产品,这些产品通常是一起购买的。如果你有这样的一对产品,你应该把这些产品放在尽可能远的地方。如果顾客想同时购买这两种产品,他/她必须走遍你的整个商店,在这条路上,你可以放置其他适合这两种产品之一的产品,但并不是经常出售。一些客户会看到这个产品并购买它,而这个额外产品的收入就是您的数据处理的收入。

所以你需要大量的数据。你必须在你所有的商店里存储从你所有顾客的购买中得到的所有数据。当一个人买了一瓶牛奶、一根香肠和一些面包时,你需要储存已经售出的商品,数量和价格。如果你想被注意到牛奶和香肠是一起买的,那么每一次购买都需要自己的身份证。

所以你有大量的购买数据。你有很多不同的产品。假设你在你的商店里销售10.000种不同的产品。每一种产品都可以与其他产品配对。这使得10,000,000/2= 50,000,000 (5,000万)对。对于每对可能的配对,你必须找出,如果它包含在一个购买。但也许你认为周六下午的顾客和周三晚些时候的顾客不一样。所以你也要储存购买的时间。梅比,你定义了一个星期的20个时间切片。这就创造了5000万* 20 =10亿条记录。因为孟菲斯人可能买的东西和贝弗利山的人不同,所以你也需要在你的数据中找到合适的地方。比方说,你定义了50个区域,所以在你的数据库中有500亿条记录。

然后你处理你所有的数据。如果一个客户在一次购买中确实购买了20个产品,那么20 * 19 /2= 190对。对于每一对,您增加计数器的时间和地点的购买在您的数据库。但是你应该用什么来增加计数器呢?只差1分钟?还是通过购买的产品数量来计算?但你有两种产品。你要取两者之和吗?还是最大的?最好您使用多个计数器,以便能够以您所能想到的所有方式来计数它。

你还得做点别的:顾客购买更多的牛奶和面包,然后是香槟和鱼子酱。因此,如果他们选择任意的产品,当然这对牛奶面包的数量比一对香槟鱼子酱要高。所以当你分析你的数据时,你也必须考虑其中的一些影响。

然后,当您完成所有这些操作时,您将执行数据处理-查询。您选择事实计数与估计计数的比率最高的一对。您可以从有数十亿条记录的数据库表中选择它。这可能需要几个小时来处理。所以,在提交查询之前,如果您的查询确实是您想要知道的,请仔细考虑!

你可能会发现,在农村环境下,人们在星期六下午买更多的啤酒和尿布,比你想象的要多。所以你只需要在商店的一端放啤酒,在另一端放尿布,这让很多人在你的整个商店里看到(希望买到)许多其他东西,如果啤酒和尿布放在一起,他们就不会看到(或者买)。

请记住:您的数据处理的成本只包括您的客户的额外优惠!

结论:

  • 你必须储存对,三倍的更大的元组的项目,这将需要大量的空间。因为你不知道你最终会发现什么,你必须存储所有可能的组合!
  • 你必须数那些元组
  • 必须将计数值与估计值进行比较。
票数 3
EN

Stack Overflow用户

发布于 2012-08-29 22:08:46

将每个事务存储为标记向量(即访问包含这些标记的页面)。然后对这些数据进行关联分析(我可以推荐Weka),使用可用的“关联”算法查找关联。当然,有效性取决于许多不同的事情。

我大学的一位男生告诉我,通常你可以简单地创建一个人购买的所有产品的向量,并将其与其他人的向量进行比较,得到不错的推荐。这是将用户表示为他们购买的产品或他们访问的页面,例如Jaccard相似度计算。如果“人”是相似的,那么看看他们购买的产品,而这个人却没有。(可能是同类人群中最常见的)。

存储是一个完全不同的游戏,在不同的关系数据库中实现的KD树等矢量数据有很多很好的索引。

上一门关于数据挖掘的课程:)或者只是阅读一本优秀的教科书(我读过彭宁、坦等人的“数据挖掘概论”及其优点)。

对于存储所有对的产品等,当然没有做到这一点,并使用更有效的算法,基于支持和置信度,以修剪搜索空间。

票数 2
EN

Stack Overflow用户

发布于 2012-08-26 11:45:52

我应该说推荐是机器学习的问题。如何存储数据取决于您选择的算法。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12055953

复制
相关文章
重做日志和日志挖掘
日志文件的六种状态UNUSED,CURRENT,ACTIVE,CLEARING,CLEARING_CURRENT,INACTIVE代表的意思分别如下所述:
职场亮哥
2020/10/10
1.3K0
重做日志和日志挖掘
浅谈微博精准推荐——用户行为挖掘与相似用户挖掘
在微博中,用户可以通过“关注”行为成为另一个用户的粉丝,“关注”行为是有向的。通过“关注”一个用户后,我们可以在我们的feed流中看到对方的信息。在微博中,通过这样的方式,我们可以接触到更多的信息。
博文视点Broadview
2020/06/11
1.4K0
浅谈微博精准推荐——用户行为挖掘与相似用户挖掘
日志和告警数据挖掘经验谈
    最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享。
刘建平Pinard
2018/08/14
8870
【数据挖掘】rattle:数据挖掘的界面化操作
R语言是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里的统计计算可以是数据分析、建模或是数据挖掘等,通过无数大牛提供的软件包,可以帮我们轻松实现算法的实施。 一些读者
小莹莹
2018/04/23
1.6K0
【数据挖掘】rattle:数据挖掘的界面化操作
日志归档与数据挖掘
日志归档与数据挖掘 摘要 2013-03-19 第一版 2014-12-16 第二版 我的系列文档 Netkiller Architect 手札 Netkiller Developer 手札 Netkiller PHP 手札 Netkiller Python 手札 Netkiller Testing 手札 Netkiller Cryptography 手札 Netkiller Linux 手札 Netkiller Debian 手札 Netkiller CentOS 手札
netkiller old
2018/03/05
1.3K0
推荐系统-通过数据挖掘算法协同过滤讨论基于内容和用户的区别
概念 个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。 为什么要个性化推荐? - 商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品 - 浏览大量无关的信息和产品,信息过载问题,用户难以获取所需要的信息 分类 基于内容的推荐 根据用户的历史数据,推荐用户感兴趣的产品。 1. 产品表示: 为每个item 抽取出一些 特征来表示此item;结构化属性如身高、学历、籍贯等;非结构化属性如item自己写的交友宣言,博客内容等等,需要转化成结
学到老
2018/04/02
9030
推荐系统-通过数据挖掘算法协同过滤讨论基于内容和用户的区别
Centos记录所有用户登录和操作的详细日志
最近 Linux服务器上一些文件呗篡改,想追查已经查不到记录了,所以得想个办法记录下所有用户的操作记录。
用户8965210
2021/09/01
3.1K1
MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门
一、什么是数据挖掘         数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,自动提取隐含在其中的、人们事先不知道的,
用户1148526
2018/01/03
1.9K0
MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门
平台用户操作日志模块设计
本文主要从三个部分叙述关于一般平台日志模块的实现 开发工具:springMvc4.3、jdk8、mybatis3.3 概述 这里的日志主要是记录用户在平台上的操作、以及操作结果。实现思路,则重点记录 用户发送请求中的部分数据,以及执行后返回的结果在写入响应body前拿到controller返回数据。将这两个部分的数据保存到对应的日志表中 表结构如下: -- ---------------------------------------------------------------- -- 用户操作日志表
用户1418372
2018/09/13
5.8K0
说好的面经来啦!! 数据挖掘/大数据开发
之前找实习还有秋招的时候看了不少大神的帖子,现在也来回馈一下~ 感觉这方面帖子也不多。
牛客网
2018/11/19
2.1K0
[推荐系统读书笔记]好的推荐系统
在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:作为信息消费者,如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情;作为信息生产者,如何让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。
用户1631856
2018/12/05
8950
如何构建一个好的数据挖掘模型
1 首先要保证数据质量,特征值需要选择好,其次需要弄明白业务需求,确立你的分析目标是分类还是预测
许卉
2019/07/15
7760
跟我一起数据挖掘(20)——网站日志挖掘
收集web日志的目的 Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。 1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接关系,以适应用户的访问习惯,并且同时为用户提供有针对性的电子商务活动和个性化的信息服务,应用信息推拉技术构建智能化Web站点。 2、以分析Web站点性能
cloudskyme
2018/03/20
1.9K0
跟我一起数据挖掘(20)——网站日志挖掘
Linux下查看ftp用户操作日志
FTP服务器的日志设置,可以通过修改主配置文件/etc/vsftpd.conf实现。主配置文件中与日志设置有关的选项包括xferlog_enable 、xferlog_file 和dual_log_enable 等。
小妍树洞
2022/11/05
20.4K0
HarmonyOS和小熊派 好物推荐
在小熊派开源社区,我们专宠每一位开发者。这次我们为每一位开发者安排了一份神秘又充满乐趣的礼物——”护花使者”。HarmonyOS&小熊派 好物推荐 “护花使者”超级礼盒,99元、30分钟便可让各位开发者们重拾童趣
杨源鑫
2021/07/07
5640
HarmonyOS和小熊派 好物推荐
数据挖掘:微博用户画像之用户标签
摘要: 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。 微博作为最大的中文社交媒体,拥有数以“PB”(1024 TB)计的用户信息,从海量的用户信息中发掘每个用户的社交特性、潜在能力及兴趣等信息,是微博为用户提供更加人性化服务的基础。微博大数据经过近两年不断地调整、磨合、优化,针对社交媒体特性,研发构建了一整套完整的用户画像体系。该体系涵盖能力标签、兴趣标签、关
CDA数据分析师
2018/02/11
10.9K0
数据挖掘:微博用户画像之用户标签
大型网站的日志分析和数据挖掘工作
日志分析与数据挖掘常常被我们所忽视,其实不管是大型网站还是中小网站,都是一件很有意义的工作。只是大型网站的日志分析和数据挖掘工作难度要更高一些,因为数据量实在太大,所以我们要具备足够的耐心来做该项工作,并且要有的放矢。
茹莱神兽
2020/09/07
1.4K0
大型网站的日志分析和数据挖掘工作
好物推荐
当一个阵列硬盘组不合适,我唯一想到的就是一个智能的硬盘盒了额,售价108元,不过固态硬盘感人的价格.我也是实在不知道这个东西的用处在哪里.看商品得定位是SSD的解决方案.可以支持到2T.
云深无际
2021/04/14
7.7K0
好物推荐
保护日志中的用户隐私数据
与中国人“愿意”用隐私交换便利性的心态完全不同,欧美国家在个人隐私保护方面明显走得更早也更远一些。在2018年5月GDPR发布前后的一段时间里,保护个人隐私相关的需求被迅速提高了优先级,而像我这样一个开发国际化产品的普通程序员,日常工作也因此受到影响,我们放下手中的业务需求卡(Story),转而去做GDPR相关的安全需求。
极客人
2019/05/06
1.3K0
保护日志中的用户隐私数据
所谓好的用户体验
怎样的用户体验才是好的用户体验呢?工作中时常遇到需求方的挑战,相信你也遇到过这样的情况:你觉得这个地方放上个广告是不合适的,但又找不到理由说服需求方,特别是当她拿出 KPI 的时候。而且结果是这个广告位的确也带来了不少流量,从营销的角度来说,它是有价值的。多少跟做网络营销的 SEO 差不多,只看中短期利益,所有可以提高排名的手段都用上。
GhostZhang
2022/08/22
3.1K0

相似问题

NoSQL作为数据挖掘解决方案?

12

用于定位错误的数据挖掘日志

40

什么是好的Rails日志解决方案?

15

加强文件路径操作解决方案推荐

17

在某些操作上创建用户事件。什么是推荐的解决方案?

24
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文