我可以知道如何评估语义搜索(本体搜索)并对检索到的文档进行排序吗?
因为即使文档不具有查询的关键字,语义搜索也可以检索到文档的相似含义。这意味着我不能使用TFIDF来比较查询和文档并进行排序。因为精确度和召回率将不会准确。
如何对基于本体的语义搜索进行评价,并进行文档排序?
发布于 2016-12-08 17:14:26
您应该使用用作黄金标准的数据集。
相关性是相对于一个而不是一个查询来评估的。例如,需要的信息可能是:
关于饮用红酒是否比白酒更有效地降低心脏病发作风险的信息。这可能会被翻译成一个查询,比如:酒和红,白和心,攻击和效果如果一个文档满足了规定的信息需求,那么它就是相关的,而不是因为它恰好包含了查询中的所有单词。
以下是最标准的测试集合和评估系列的列表。
克兰菲尔德收藏品。这是在信息检索有效性的精确定量测量方面的开创性测试集合,但现在除了最基本的试点实验之外,它太小了。它从20世纪50年代末开始在英国收集,包含1398篇空气动力学期刊文章的摘要,一组225个查询,以及所有(查询,文档)对的详尽相关性判断。文本检索会议(TREC)。自1992年以来,美国国家标准与技术研究所(NIST)已经进行了一系列大型红外试验台评估。在这个框架内,在一系列不同的测试集合上有许多轨道,但最著名的测试集合是1992至1999年间前8次TREC评估期间用于TREC特别轨道的测试集合。总体而言,这些测试集包括6张CD,其中包含189万个文档(主要但不限于newswire文章)和450个信息需求的相关性判断,这些信息需求称为主题,并在详细的文本段落中指定。单个测试集合是在此数据的不同子集上定义的。早期的TREC每个都由50个信息需求组成,在不同但重叠的文档集上进行评估。TREC 6-8提供150个信息需求,超过528,000篇新闻和国外广播信息服务文章。这可能是在将来的工作中使用的最好的子集,因为它是最大的,并且主题更一致。因为测试文档集合非常大,所以没有详尽的相关性判断。相反,NIST评价员的相关性判断仅适用于在TREC评估中输入的某些系统返回的顶级$k$中的文档,为其开发信息需求。最近几年,国家科学技术研究所对更大的文档集进行了评估,包括2500万页的GOV2网页集。从一开始,NIST的测试文档集比以前研究人员可用的任何文档集都大几个数量级,而GOV2现在是最大的可用于研究目的的Web集。尽管如此,GOV2的大小仍然比大型网络搜索公司索引的文档集合的当前大小小两个数量级以上。
NII IR系统测试集( NTCIR )。NTCIR项目建立了与TREC集合大小相似的各种测试集合,重点关注东亚语言和跨语言信息检索,其中以一种语言对包含一种或多种其他语言文档的文档集合进行查询。请参阅:http://research.nii.ac.jp/ntcir/data/data-en.html跨语言评估论坛( CLEF )。本评估系列主要关注欧洲语言和跨语言信息检索。参见:http://www.clef-campaign.org/和Reuters-RCV1。对于文本分类,使用最多的测试集合是由21578篇newswire文章组成的路透社-21578集合;请参阅第13章,第13.6页。最近,路透社发布了更大的路透社语料库第1卷(RCV1),由806,791个文档组成;请参阅第4章,第4.2页。它的规模和丰富的注释使其成为未来研究的更好基础。20个新闻组。这是另一个广泛使用的文本分类集合,由Ken Lang收集。它包含来自20个Usenet新闻组中每个新闻组的1000篇文章(新闻组名称被视为类别)。在去掉重复的文章之后,它包含了18941篇文章。
https://stackoverflow.com/questions/41033200
复制相似问题