首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >网络爬虫的最佳数据库设计

网络爬虫的最佳数据库设计
EN

Stack Overflow用户
提问于 2011-07-05 16:22:52
回答 2查看 1.6K关注 0票数 1

许多数据库系统适合与网络爬虫一起工作,但是有没有专门为网络爬虫开发的数据库系统(在.net中)。

我的经验告诉我,网络爬虫有许多部分和服务,每个部分都需要一些特定的功能。例如,要缓存网页,我们需要一些东西,比如sql server的FILESTREAM。或者检查db中是否已经存在URL,最好的选择是memcached

事实上,我有两个问题

1)与网络爬虫一起工作的最好的数据库系统是什么?

2)是否有涵盖所有功能的数据库系统!

EN

回答 2

Stack Overflow用户

发布于 2011-07-05 16:30:26

仅供参考,据我所知,Google没有使用任何rational数据库引擎,他们有一个专有的文件系统GFS和他们自己的数据持久化抽象。

谁告诉你memcached是最好的选择?考虑一下,在数据量是BIIIG的情况下,你会耗尽内存,当然,除非你有一个大型数据中心,并且能够在内存中的机器之间共享数据……

我认为这不是最好的选择,最好的可能是谷歌,他们的大部分工作都是在内部完成的。

如果你能处理好处于高水平(但仍然不是最好的),我认为所有的引擎,如SQL Server、Oracle、mySQL和许多其他引擎都可以很好地运行,这更多地取决于你如何使用它们以及如何构建你的解决方案。

票数 1
EN

Stack Overflow用户

发布于 2011-07-13 05:37:43

谷歌使用一个面向列的数据库BIGTABLE来存储其爬虫结果,也用于谷歌文档,其他谷歌产品是建立在GFS (谷歌文件系统)之上的。到目前为止,他们的设计是我所知道的最好的。

Apache HBase在实现上类似于Bigtable。HBase是建立在HDFS (Hadoop分布式文件系统)之上的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6579748

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档