我想建立一种存档服务。其想法是,我向服务发送一个文档(大小为10KB的HTML),它向我返回一个简短的标识符,稍后我可以使用该标识符检索文档。许多文档将彼此非常相似;对于任何一个文档,可能有1000个其他文档与其重叠95%。因此,每次我发送一个文档时,存档服务都应该尝试找到一个类似的文档,并只存储差异。
这样的系统已经存在了吗?如果可能的话,我更喜欢基于PHP/MySQL的东西。
发布于 2013-02-03 09:22:33
从您的用例中浮现出CouchDB。了解他们如何将文档存储为JSON,以及如何对文档进行修订(存储在_rev字段中)。
http://guide.couchdb.org/draft/documents.html
但是,它不会为您做比较。使用一个简单的CouchDB实现,这一责任将落在您身上,但它确实可以很好地为您处理版本。
不幸的是,我不知道任何开箱即用的数据库可以比较文档,然后找到相似的东西并替换它们。
https://stackoverflow.com/questions/14664177
复制相似问题