有人能解释一下像del.icio.us这样的网站是如何进行搜索的吗?
如果我输入"js"(1),"javascript"(2)或"java script"(3)作为我对delicious的查询,我会被指向关于Java Script的资源。但是,根据查询的不同,返回的结果集也不同(del.icio.us系统为"js“和"javascript”查询返回不同的书签集)。
因此,系统似乎并没有真正意识到(1)和(2)是彼此的同义词。相反,它会尝试将我的查询与在关联标签或标题中包含查询字符串的书签进行匹配。对吗?
您将如何“教育”系统所有(1)、(2)、(3)实际上都是同义词,并且不管选择的查询是什么,用户都应该看到所有与Java Script相关的资源?
这样做是不是一个好主意?
谢谢,格雷格
发布于 2009-12-30 02:59:45
是的:人类的brain。
严肃地说:从密切相关的主题中以编程方式区分同义词将是非常非常困难的。有一些标签组合极有可能一起出现,比如javascript和jquery。当然,你也可以利用这些信息做一些事情,比如说,如果没有javascript,jquery永远不会出现,因此它一定是它的某种子集,但实际上,它也是自己发生的。如果标记得当,XML和XSLT将经常一起出现,但它们不是同义词,要知道这一点,您需要具有实际技术知识的人来进行呼叫。
我建议使用预过滤系统来查找同义词的候选者,并由管理员执行实际的同义词处理。
https://stackoverflow.com/questions/1976246
复制相似问题