首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >对大量相似文档的归档服务

对大量相似文档的归档服务
EN

Stack Overflow用户
提问于 2013-02-03 00:54:48
回答 1查看 33关注 0票数 0

我想建立一种存档服务。其想法是,我向服务发送一个文档(大小为10KB的HTML),它向我返回一个简短的标识符,稍后我可以使用该标识符检索文档。许多文档将彼此非常相似;对于任何一个文档,可能有1000个其他文档与其重叠95%。因此,每次我发送一个文档时,存档服务都应该尝试找到一个类似的文档,并只存储差异。

这样的系统已经存在了吗?如果可能的话,我更喜欢基于PHP/MySQL的东西。

EN

回答 1

Stack Overflow用户

发布于 2013-02-03 09:22:33

从您的用例中浮现出CouchDB。了解他们如何将文档存储为JSON,以及如何对文档进行修订(存储在_rev字段中)。

http://guide.couchdb.org/draft/documents.html

但是,它不会为您做比较。使用一个简单的CouchDB实现,这一责任将落在您身上,但它确实可以很好地为您处理版本。

不幸的是,我不知道任何开箱即用的数据库可以比较文档,然后找到相似的东西并替换它们。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14664177

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档