大型在线数据仓库(如某中心商店)分布在庞大的服务器集群中,数据检索必须高效以确保良好的用户体验。通常存在服务级别协议(SLA),要求特定比例查询(如95%)必须在规定时间上限(如150毫秒)内响应。
传统数据聚类方法将相关内容集中在少数服务器上,但可能导致负载不平衡和SLA违规。新方法通过以下方式改进:
在节点内部实施更精细的文档聚类:
使用标准ClueWeb09B文档集和TREC百万查询追踪的查询进行测试:
这项研究为分布式环境下的信息检索提供了创新解决方案,相关成果已发表于ACM信息交易系统期刊(TOIS)和ACM信息检索特别兴趣组(SIGIR)会议。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。