Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >推荐:日志用户操作和数据挖掘it -好的解决方案

推荐:日志用户操作和数据挖掘it -好的解决方案
EN

Stack Overflow用户
提问于 2012-08-21 05:29:11
回答 3查看 360关注 0票数 10

我计划记录所有的用户操作,如浏览的页面,标签等。

什么是一个很好的数据的精益解决方案??挖掘这个数据以获取。

像这样说:

  • 显示查看URL中的所有兴趣(假设我知道相关的标记)
  • 找出有相似兴趣的人。例如,约翰和简查看了与汽车有关的网址。

编辑:

实际上,我在这个领域缺乏知识,这是我起步的一个限制因素。

让我换个说法。

比如说像stackoverflow或Quora这样的网站。我所有的浏览历史,通过不同的问题都被记录下来,Quora做了一个数据挖掘工作,通过它和填充我的流与相关的问题。我经历了与养育有关的问题,下一次登录时,我看到了很多关于养育子女的问题。亚马逊购物也是如此。我浏览手表和混频器,两天后,他们寄给我的相关购物项目的邮件,我感兴趣。

我的问题是,他们如何有效地存储这些数据,然后进行数据挖掘,以显示下一个相关的数据集。

EN

回答 3

Stack Overflow用户

发布于 2012-08-24 04:34:13

数据挖掘是一种需要巨大的存储空间和巨大的计算能力的方法。

我举一个例子:

想象一下,你是沃尔玛这样的大型连锁超市的老板,你想知道如何把你的产品放在你的市场上,这样消费者在进入你的商店时就会花很多钱。

首先,你需要一个主意。你的想法是寻找不同产品类别的产品,这些产品通常是一起购买的。如果你有这样的一对产品,你应该把这些产品放在尽可能远的地方。如果顾客想同时购买这两种产品,他/她必须走遍你的整个商店,在这条路上,你可以放置其他适合这两种产品之一的产品,但并不是经常出售。一些客户会看到这个产品并购买它,而这个额外产品的收入就是您的数据处理的收入。

所以你需要大量的数据。你必须在你所有的商店里存储从你所有顾客的购买中得到的所有数据。当一个人买了一瓶牛奶、一根香肠和一些面包时,你需要储存已经售出的商品,数量和价格。如果你想被注意到牛奶和香肠是一起买的,那么每一次购买都需要自己的身份证。

所以你有大量的购买数据。你有很多不同的产品。假设你在你的商店里销售10.000种不同的产品。每一种产品都可以与其他产品配对。这使得10,000,000/2= 50,000,000 (5,000万)对。对于每对可能的配对,你必须找出,如果它包含在一个购买。但也许你认为周六下午的顾客和周三晚些时候的顾客不一样。所以你也要储存购买的时间。梅比,你定义了一个星期的20个时间切片。这就创造了5000万* 20 =10亿条记录。因为孟菲斯人可能买的东西和贝弗利山的人不同,所以你也需要在你的数据中找到合适的地方。比方说,你定义了50个区域,所以在你的数据库中有500亿条记录。

然后你处理你所有的数据。如果一个客户在一次购买中确实购买了20个产品,那么20 * 19 /2= 190对。对于每一对,您增加计数器的时间和地点的购买在您的数据库。但是你应该用什么来增加计数器呢?只差1分钟?还是通过购买的产品数量来计算?但你有两种产品。你要取两者之和吗?还是最大的?最好您使用多个计数器,以便能够以您所能想到的所有方式来计数它。

你还得做点别的:顾客购买更多的牛奶和面包,然后是香槟和鱼子酱。因此,如果他们选择任意的产品,当然这对牛奶面包的数量比一对香槟鱼子酱要高。所以当你分析你的数据时,你也必须考虑其中的一些影响。

然后,当您完成所有这些操作时,您将执行数据处理-查询。您选择事实计数与估计计数的比率最高的一对。您可以从有数十亿条记录的数据库表中选择它。这可能需要几个小时来处理。所以,在提交查询之前,如果您的查询确实是您想要知道的,请仔细考虑!

你可能会发现,在农村环境下,人们在星期六下午买更多的啤酒和尿布,比你想象的要多。所以你只需要在商店的一端放啤酒,在另一端放尿布,这让很多人在你的整个商店里看到(希望买到)许多其他东西,如果啤酒和尿布放在一起,他们就不会看到(或者买)。

请记住:您的数据处理的成本只包括您的客户的额外优惠!

结论:

  • 你必须储存对,三倍的更大的元组的项目,这将需要大量的空间。因为你不知道你最终会发现什么,你必须存储所有可能的组合!
  • 你必须数那些元组
  • 必须将计数值与估计值进行比较。
票数 3
EN

Stack Overflow用户

发布于 2012-08-29 22:08:46

将每个事务存储为标记向量(即访问包含这些标记的页面)。然后对这些数据进行关联分析(我可以推荐Weka),使用可用的“关联”算法查找关联。当然,有效性取决于许多不同的事情。

我大学的一位男生告诉我,通常你可以简单地创建一个人购买的所有产品的向量,并将其与其他人的向量进行比较,得到不错的推荐。这是将用户表示为他们购买的产品或他们访问的页面,例如Jaccard相似度计算。如果“人”是相似的,那么看看他们购买的产品,而这个人却没有。(可能是同类人群中最常见的)。

存储是一个完全不同的游戏,在不同的关系数据库中实现的KD树等矢量数据有很多很好的索引。

上一门关于数据挖掘的课程:)或者只是阅读一本优秀的教科书(我读过彭宁、坦等人的“数据挖掘概论”及其优点)。

对于存储所有对的产品等,当然没有做到这一点,并使用更有效的算法,基于支持和置信度,以修剪搜索空间。

票数 2
EN

Stack Overflow用户

发布于 2012-08-26 11:45:52

我应该说推荐是机器学习的问题。如何存储数据取决于您选择的算法。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12055953

复制
相关文章
python列表过滤的方法
在python中,对列表这样的数据结构进行过滤,提取自己需要的元素,组成新的列表,是很常见的操作,这就要自然而然的用到列表过滤了,而常用的过滤当然就是循环后通过if进行,但是这样子,显然就是代码的开支有些大。
py3study
2020/01/13
1.7K0
Python列表是数组吗?
Python的列表是我们常常使用的一种内置数据结构,其索引的使用可以让我们能很轻松的获取列表中的元素值,索引看上去就很像数组的内容,让我不禁有个疑问,列表是数组吗?
罗罗攀
2021/12/06
1.2K0
Python列表是数组吗?
SQL基础-->过滤和排序
--=======================================
Leshami
2018/08/07
6710
Python内置函数sorted()和列表方法sort()的排序原理
问题描述:在Python中,可以使用内置函数sorted()和列表方法sort()对数据进行排序,但要求所有数据支持关系运算符,也就是这些数据本身是可以比较大小的才能进行排序,除非使用key参数明确指定了排序规则。对于绝大多数内置类型的对象而言,同类型的对象之间基本上都是支持关系运算符的。但是如果要对自定义类型的对象进行排序,最好是实现__lt__()特殊方法,或者使用key参数明确指定规则。 代码功能:首先定义自定义Country类,具有国家名称和面积这两个数据成员,并且实现了特殊方法__lt__()来支
Python小屋屋主
2018/04/16
1.6K0
Python内置函数sorted()和列表方法sort()的排序原理
Oracle 数据库入门之----------------------过滤和排序
     EMPNO ENAME    JOB              MGR HIREDATE         SAL       COMM     DEPTNO                                     
互联网CEO
2018/12/11
7300
Notion系列-视图、过滤和排序
首次创建数据库时会使用默认视图的布局,之后就可以点击左上角+ New view按钮创建其他视图。
用户10002156
2023/09/10
7050
Notion系列-视图、过滤和排序
Oracle学习(二):过滤和排序
1.知识点:可以对照下面的录屏进行阅读 SQL> --字符串大小写敏感 SQL> --查询名叫KING的员工信息 SQL> select * 2 from emp 3 where ename = 'KING'; SQL> --日期格式敏感 SQL> --查询入职日期为17-11月-81的员工 SQL> select * 2 from emp 3 where hiredate='17-11月-81'; --正确例子 SQL> ed 已写入 file afiedt.buf 1
Java架构师必看
2021/05/17
7480
notify是object方法吗_wait方法和notify方法
既然notify会唤醒一个线程,并获取锁,notifyAll会唤醒所有线程并根据算法选取其中一个线程获取锁,那最终结果不都是只有一个线程获取锁吗?那JDK为什么还需要做出来这两个方法呢?这两种同步方法本质上会有什么区别?
全栈程序员站长
2022/10/04
2560
继承是代码复用的最佳方案吗?
继承,一个父类可有许多个子类。父类就是把一些公共代码放进去,之后在实现其他子类时,少写一些代码。
JavaEdge
2023/01/15
6050
Python列表排序 list.sort方法和内置函数sorted
很多时候我们获取到一个列表后,这个列表并不满足我们的需求,我们需要的是一个有特殊顺序的列表.
Python碎片公众号
2021/02/26
8290
Python列表排序 list.sort方法和内置函数sorted
vue列表过滤
一种常见的列表过滤方式是使用计算属性。计算属性是Vue.js提供的一种便捷的属性,它根据已有的数据计算出一个新的属性,并将结果缓存起来,只在相关依赖发生改变时才重新计算。通过使用计算属性,可以根据特定的条件过滤列表数据。
堕落飞鸟
2023/05/21
5980
python中列表排序,字典排序,列表中的字典排序
key= lambda dict1:dict1[0] #dict1[0]表示按键,dict1[1]表示按值。
用户8346838
2021/03/10
9.2K0
python 列表过滤
-------or values = ['1', '2', '-3', '-', '4', 'N/A', '5'] def is_int(val): try: x = int(val) return True except ValueError: return False ivals = list(filter(is_int, values)) print(ivals)
用户5760343
2019/09/25
9510
三种python 列表排序方法
本文将讨论的是,如何将一个字符串组成的列表,比如 'abc','cba','bac' ,按照特定的条件(比如首字母、尾字母、或者长度)灵活的排序?
用户8418197
2022/02/17
8420
python中列表的排序方法操作总结分享
简单记一下python中List的sort方法(或者sorted内建函数)的用法。
我叫什么好
2022/01/08
8030
RF GaN on Silicon是最佳拍档吗?
相比于碳化硅衬底,GaN on Silicon采用标准硅衬底,无疑在成本方面,会有巨大的优势。GaN on Silicon目前的性能怎么样?未来还有哪些需要突破的地方?本文展示了英飞凌在这方面的的一些突破和成就。
海大指南针
2022/05/16
2660
RF GaN on Silicon是最佳拍档吗?
[PHP] laravel中collect数组排序和过滤的使用
经常在代码中我们需要实现数组排序,或者数组过滤,或者数组查找类似查找数据库一样的用法
唯一Chat
2021/10/15
3.8K0
【Python】列表3个修改数据方法和复制数据方法
列表数据修改操作主要从三个方面去介绍,第一是修改指定下标的数据,第二是使用逆序函数reverse(),第三个是排序sort()。接下来复制列表数据,一般做数据修改的时候都会先复制一份原始数据再进行操作。这四种方法都是相对比较简单的是python基础教程,看后多多练习就可以了,更深入的了解可以去看官方文档。
python自学网
2022/04/03
7320
【Python】列表3个修改数据方法和复制数据方法
构建SaaS产品的最佳方法是MVP
来源|作者:李宽wideplum  ---- 初创公司和大型IT公司越来越多地使用MVP作为创建成功软件产品的起点。专注于核心功能的最小集合,公司开发一个产品框架,如果成功地验证了需求、效率和市场可行性,就可以使用该框架来扩大供应,并建立一个成熟的业务。 然而,在定义MVP的组成部分时,初创企业所遵循的许多概念都是不正确的。例如,有一种常见的误解,认为产品的早期版本是为了快速进入市场而设计的。事实上,正如前面提到的,最小可行的解决方案旨在验证经济可行性,所以只有在MVP分析和测试目标快速实现的
腾讯SaaS加速器
2021/03/08
8200
最佳的广告预算配比良方是7:3吗?
众所周知,微妙美丽的黄金比例是0.618,它存在于在这个世界中的所有角落。而在品牌广告预算分配中,黄金比则是约为0.7——70%的品牌广告+30%的流量广告。 但很奇妙的是,当脱离了三次元,进入二次元宇宙,黄金比开始走向夸张的手法——眼睛越大越好,腿越长越好,而达芬奇的人体图,反而不符合“潮流”。 广告预算也一样,人们在二次元里被流量冲击得神魂颠倒,有一批批迎合潮流的新消费产品在流量的浪潮里起起伏伏,也有一批批追逐潮流的新新人类在各大平台上搜寻着更低的折扣。 我们为那些有着高敏感度的、精明的老板竖大拇指,
罗超频道
2022/07/18
4580
最佳的广告预算配比良方是7:3吗?

相似问题

jQuery同位素组合过滤和排序

12

jQuery (同位素)-组合过滤和排序

10

Reactjs .同位素布局-使用数据属性过滤/排序

11

数据过滤的最佳方法

11

将多个排序/过滤选项添加到列表最佳方法?

113
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文