Personalized Search论文阅读笔记

论文题目

Personalized Search by Tag-based User Profiling and Resource Profile in Collaborative Tagging Systems

Concept

Collaboative Tagging Systems:协标签系统,类似于YouTube、Flickr这样一类系统,允许用户使用标签对资源进行标注,而得出用户的标签;所以,用户具有标签,资源也有标签,这样称为协同标签。 folksonomy:大众分类的。如上所说的一些系统中允许用户去标注资源,即,利用大众的力量去分类资源。 personalized search:个性化搜索,在返回和查询相关的结果时不仅考虑和搜索的关键词相关,并且考虑用户的profile(偏好)。

About this paper

论文中首先总结了之前的工作中对用户和资源的profile构建的方法,用户和资源的profile的tag的权重计算方法有TF、TF-IDF、BM25,以及用户兴趣和资源相似性的计算方法,但这些方法都存在一定的局限性。 TF方法:对于标注比较频繁或者比较活跃的用户,经常使用某些tag标注。如果使用TF计算tag的权重,那么,对于不经常标注资源的用户,其偏好的标签权重必定比活跃的用户tag小很多。

举个例子:

Tom = {(tag1:300;tag2:200;tag3:280)}; Jerry = {(tag1:50;tag2:30;tag3:10)} 对于,Tom和Jerry来说,tag1都是其偏好的,但是如果以TF来计算,tag1对于Tom的偏好程度是大于Jerry的,而其实,tag1对Jerry是更为感兴趣的。同理,对于资源标签权重计算方法也存在相似问题。

TF-IDF方法:这里为TF-IDF的演变版,TF-IUF和TF-IRF。TF-IDF用来表示一个tag能否表示该实体的程度,同理,TF-IUF和TF-IRF表示一个标签能否表示该用户和资源。但是,这里存在的问题是,标签的权值并不能表示用户对于该标签的偏好程度。

举个例子:

Tom的标签使用频率如下:[tag1:500;tag2:400;…;tagn:1]。如果使用TF-IDF方法来计算标签权重,那么,tagn的TF-IDF权重是最大的,但是,tagn并不是用户最感兴趣的。同理,对于资源标签权重计算方法也存在相似问题。

BM25:BM25方法是以TF和TF-IDF的值作为变量,所以BM25方法也存在以上的局限性。

用户兴趣与资源相似性计算方法:一般计算该相似度采用的方法是余弦相似性等相似性计算法方法,这存在一些问题。因为现在用户的标签的权值代表的是用户对该tag的感兴趣程度,而不是与目标资源的相关程度,所以用一般相似性计算方法是不合理的。

举个例子:

Resource1 = {(tag1:0.9;tag2:0.95;tag3:0.85)}; Resource2 = {(tag1:0.9;tag2:0.1;tag3:0.01)}; User = {(tag1:0.8;tag2:0.5;…;tag3:0.25)}。如果用一般方法计算相似度,那么R1相似性小于R2,而与用户偏好相似的更多是R1。是因为用户对tag1,tag2,tag3都是偏好的,而R2只是对tag1更符合一些。

所以,基于以上方法的不合理之处,该论文提出了计算user和resource标签权值及计算用户兴趣和资源相关性的方法。

论文提出的方法

User Profiles Modeling

某用户中标签的权值 = 该标签被用来标注的次数 / 该用户标签总标注次数

Resources Profiles Modeling

某资源中标签的权值 = 使用该标签标注该资源的用户数 / 标注该资源的总用户数

Personalized Search

分为查询相似性计算和用户兴趣与查询相似性计算。相关公式见论文。 最后,将两个相似性分数融合得到相似性分数。

实验结果准确性度量标准

数据集:MovieLens数据集和该论文自己的一个demo系统。

1.标准1:imp = 1 / rp - 1 / rb;rp为新方法对目标资源的等级,rb为baseline方法对目标资源的等级。

2.标准2:HR:命中率计算方法

3.标准3:MRR:平均倒数评级

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | 谷歌《Cell》论文:光学显微镜+深度学习=荧光显微镜

谷歌在透射光显微镜和荧光显微镜这两种显微镜技术上获得灵感,在《Cell》上发表了利用深度学习来对显微镜细胞图像进行分色荧光标记的论文。 AI 科技评论按:在生物...

41311
来自专栏转载gongluck的CSDN博客

FFmpeg菜鸡互啄#第1篇#一些基本概念

播放一个视频文件的流程 ? 封装格式 视频流和音频流按照一定的格式存储在一个文件中。常见的封装格式有mp4、flv、avi、mkv… 视频编码 将视频像素数据(...

3909
来自专栏深度学习自然语言处理

【机器学习】如何处理数据不均衡问题

那么如果你随便在大街上找一个人,预测他是喜欢吃梨还是苹果?肯定的,傻子都知道猜他喜欢吃梨呀。因为这样基本不用学习什么知识,就能将准确率控制在90%左右。

943
来自专栏机器之心

教程 | 盯住梅西:TensorFlow目标检测实战

选自Medium 作者:Nicolas Bortolotti 机器之心编译 参与:黄小天、路雪 近日,一篇题为《Following Messi with Ten...

3937
来自专栏机器学习之旅

Python:需求预估

之前写了一篇以基于elastic的需求预估的文章,只不过用的是R语言开发的,最近在学python,就仿照逻辑写了一篇python的,主要修改点如下:

1172
来自专栏美团技术团队

深度学习及AR在移动端打车场景下的应用

作为美团点评技术团队的传统节目,每年两次的Hackathon已经举办多年,产出很多富于创意的产品和专利,成为工程师文化的重要组成部分。本文就是2017年冬季Ha...

3579
来自专栏人工智能头条

除了AutoGraph还有 ...... 这两天TensorFlow真是会搞事情

【人工智能头条导读】昨天谷歌发布了 TensorFlow 的一个新工具 —— AutoGraph,可以将 Python 代码快速转化到 TensorFlow 的...

981
来自专栏AI科技大本营的专栏

AI 技术讲座精选:在 Pinterest 上的视觉发现

摘 要 在过去的三年中,Pinterest 已经针对几款视觉搜索和推荐服务做出了相关的实验,其中就包括 Related Pins (2014)、Similar ...

3666
来自专栏CDA数据分析师

如何利用 Excel 进行高级数据分析?

高级的数据分析会涉及回归分析、方差分析和T检验等方法,不要看这些内容貌似跟日常工作毫无关系,其实往高处走,MBA的课程也是包含这些内容的,所以早学晚学都得学,干...

2248
来自专栏深度学习之tensorflow实战篇

协同过滤算法概述与python 实现协同过滤算法基于内容(usr-item,item-item)

协调过滤推荐概述   协同过滤(Collaborative Filtering)作为推荐算法中最经典的类型,包括在线的协同和离线的过滤两部分。所谓在线协同,...

6894

扫码关注云+社区