我最近读过文本短片段的相似性度量 (Metzler等人)。描述了度量查询相似度的基本方法,数据由查询和查询结果组成。结果是页面urls、页面标题和简短的页面片段的列表。在本文中,作者收集了200个查询结果。
当使用公共Google检索结果时,我只能收集每个查询的4-10个结果。10和200之间有很大的差别。因此,实际使用多少数据来度量查询的相似性(例如,每个查询的结果有多少)?
推荐信更佳!
发布于 2014-08-27 18:33:23
当使用公共Google检索结果时,我只能收集每个查询的4-10个结果。
以下是如何在每次查询中获得10个以上的结果:https://support.google.com/customsearch/answer/1361951?hl=en
谷歌自定义搜索和谷歌网站搜索返回多达10个查询结果。如果要向用户显示10个以上的结果,可以发出多个请求(使用start=0、start=11 .参数)并将结果显示在单个页面上。在这种情况下,Google将把每个请求作为一个单独的查询来考虑,如果您使用的是Google站点搜索,则每个查询都将计算到您的限制。
还有其他搜索引擎API(例如,必应)
https://datascience.stackexchange.com/questions/1003
复制相似问题