文章/答案/技术大牛

发布

社区首页 >问答首页 >网络爬虫的最佳数据库设计

问网络爬虫的最佳数据库设计
EN

Stack Overflow用户

提问于 2011-07-05 16:22:52

回答 2查看 1.6K关注 0票数 1

许多数据库系统适合与网络爬虫一起工作，但是有没有专门为网络爬虫开发的数据库系统(在.net中)。

我的经验告诉我，网络爬虫有许多部分和服务，每个部分都需要一些特定的功能。例如，要缓存网页，我们需要一些东西，比如sql server的FILESTREAM。或者检查db中是否已经存在URL，最好的选择是memcached。

事实上，我有两个问题

1)与网络爬虫一起工作的最好的数据库系统是什么？

2)是否有涵盖所有功能的数据库系统！

.net

database

performance

web-crawler

回答 2

Stack Overflow用户

发布于 2011-07-05 16:30:26

仅供参考，据我所知，Google没有使用任何rational数据库引擎，他们有一个专有的文件系统GFS和他们自己的数据持久化抽象。

谁告诉你memcached是最好的选择？考虑一下，在数据量是BIIIG的情况下，你会耗尽内存，当然，除非你有一个大型数据中心，并且能够在内存中的机器之间共享数据……

我认为这不是最好的选择，最好的可能是谷歌，他们的大部分工作都是在内部完成的。

如果你能处理好处于高水平(但仍然不是最好的)，我认为所有的引擎，如SQL Server、Oracle、mySQL和许多其他引擎都可以很好地运行，这更多地取决于你如何使用它们以及如何构建你的解决方案。

票数 1

Stack Overflow用户

发布于 2011-07-13 05:37:43

谷歌使用一个面向列的数据库BIGTABLE来存储其爬虫结果，也用于谷歌文档，其他谷歌产品是建立在GFS (谷歌文件系统)之上的。到目前为止，他们的设计是我所知道的最好的。

Apache HBase在实现上类似于Bigtable。HBase是建立在HDFS (Hadoop分布式文件系统)之上的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6579748

复制

相似问题

问网络爬虫的最佳数据库设计
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络爬虫的最佳数据库设计EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络爬虫的最佳数据库设计
EN