前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >公众分类法(Folksonomy)

公众分类法(Folksonomy)

作者头像
ruanyf
发布2018-04-12 16:17:09
8520
发布2018-04-12 16:17:09
举报

先从一个具体的问题开始思考:如何给电子书分类?(这个问题可以推广到如何给信息分类。)

传统的方法是使用自上而下的目录分类法(Taxonomy)。在中国是中图分类法(第四版),在美国是国会图书馆分类法。但是,这种分类过于复杂(所有细目厚达几千页),导致实施起来成本很高。而且,它不太符合电子书的实际,一是分得太细,一本书往往在第四层或第五层的子目录;二是分得不均衡,中图分类法下A类是"马克思主义、列宁主义、毛泽东思想、邓小平理论",I类是"文学",显而易见,对于电子书库来说,将A类单独分为一类非常浪费,而I类则至少可以分列成"汉语文学"和"外语文学"两大类。

此外,目录分类法还有一个先天不足,就是有时候一本书到底分在哪一个类很不明确。比如,《18世纪英国诗歌选(中英对照)》到底应该是"语言"类书籍,还是"文学"类书籍?一个解决办法是同时分在这两类,但是这会造成巨大的冗余工作量。

总之,目录分类法对于巨量信息来说,不是理想的分类方法。但是,它的直观和方便,却是其他分类法难以比拟的。

随着互联网的发展,一种新的分类方法出现了,那就是公众分类法(Folksonomy)。典型的代表网站就是Del.icio.us

所谓"公众分类法",就是由公众来为信息贴加标签(tagging),被使用最多的标签就最能说明这条信息的特点。

使用标签分类,非常的便捷,而且易于组合,但是也存在一些问题:

(1)不同的用户对相同的标签,往往有不同的理解,比如在"工具"标签下,可能会发现彼此完全没有关系的内容。

(2)同义词问题。用户可能使用同义词作为标签,比如"tv/television","Holland/Netherlands/Dutch","超级女生/超女"。英语中,还存在复数问题。

(3)词的多义性问题。比如"china"这个标签,到底指中国,还是指瓷器。

(4)用户的标签五花八门,可能会产生大量"噪音",加重系统负担,降低分类的准确性。

所以,最好的解决方法应该是,自上而下的目录分类法与标签式的公众分类法相结合,然后对能够用作标签的词汇进行控制(controlled vocabulary),不能什么词都用来当标签。

当然,这只是理想中的情况,技术上的实现似乎难度很大。

(注:此文用来为我整理思路,留待以后修改和补充。)

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2006年9月 6日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档