先从一个具体的问题开始思考:如何给电子书分类?(这个问题可以推广到如何给信息分类。) 传统的方法是使用自上而下的目录分类法(Taxonomy)。在中国是中图分类法(第四版),在美国是国会图书馆分类法。但是,这种分类过于复杂(所有细目厚达几千页),导致实施起来成本很高。而且,它不太符合电子书的实际,一是分得太细,一本书往往在第四层或第五层的子目录;二是分得不均衡,中图分类法下A类是"马克思主义、列宁主义、毛泽东思想、邓小平理论",I类是"文学",显而易见,对于电子书库来说,将A类单独分为一类非常浪费,而I类则
对于这样允许大众分类的应用,如何满足用户在搜索时尽可能准确地返回用户所需要的资源是一个有意思的问题。因为如果像传统的搜索方法仅通过查询关键词去匹配搜索结果,返回的结果可能会不满足用户的初衷。而且,不同的用户在搜索不同的资源时有可能会使用同样的关键词,比如,爱好运动和爱好喝咖啡的用户在搜索杯子的时候使用的关键词都可能是“杯子”,而返回的结果对于爱好运动的用户来说应该尽可能是运动型杯子,对于爱好喝咖啡的用户来说应该尽可能是咖啡杯子。所以,这里的问题都归结于Personalized Search。
搜索在20年前就已出现在互联网,而如今搜索已经无处不在。传统的搜索像这样,用户给出Query,Query中包含1个或多个关键词,搜索引擎通过关键词去检索返回查询结果。然而,在互联网上存在的资源早已是亿万级,所以仅仅用传统的搜索方法去返回给用户查询结果势必会存在大量用户不需要的结果,根据2007年”Tag recommendations in folksonomies”一文中提出不考虑用户偏好返回的搜索结果中仅有20%-45%是用户想要的,另外,用户所想查找的内容也可能远远不在结果的前列,所以,这类问题的解决需要在传统的搜索方法上考虑context-上下文,即, 简要概括:1.用户搜索返回的结果大量是其所不需要的;2.不同的用户提出同一个关键词,搜索引擎返回的结果都是同样的,而不同的用户使用同一个关键词所想搜索的意图其实可能是不同的. 将(1)用户的行为、习惯、兴趣/历史搜索结果等等;(2)资源上下文(3)任务上下文等因素考虑进去。
论文中首先总结了之前的工作中对用户和资源的profile构建的方法,用户和资源的profile的tag的权重计算方法有TF、TF-IDF、BM25,以及用户兴趣和资源相似性的计算方法,但这些方法都存在一定的局限性。 TF方法:对于标注比较频繁或者比较活跃的用户,经常使用某些tag标注。如果使用TF计算tag的权重,那么,对于不经常标注资源的用户,其偏好的标签权重必定比活跃的用户tag小很多。
领取专属 10元无门槛券
手把手带您无忧上云