问我应该使用什么数据存储来存储来自爬虫程序的临时数据？
EN

Stack Overflow用户

提问于 2011-07-13 02:04:22

回答 1查看 208关注 0票数 3

我的爬虫正在抓取所有网站并从中获取元数据信息。然后，我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。

我的问题是，我应该使用哪个数据存储来存储用于清理目的的数据(删除不需要的URL)。我不希望爬虫击中亚马逊RDS，这会减慢它的速度。

我应该使用亚马逊SimpleDB吗？然后，我可以读取SimpleDB，对网址进行杀毒，然后将其移动到Amazon RDS。

回答已采纳

发布于 2011-07-13 02:25:56

您可以始终使用db，但问题出在磁盘访问上。每次进行磁盘访问时，都要读取一堆URL，对它们进行清理，然后再将它们写入另一个数据库，这就是另一个磁盘访问。如果你不关心性能，这个过程是可以的。

一种解决方案是，你可以使用任何像列表一样简单的数据结构，存储一堆或URL，当列表达到阈值时，它会唤醒URL，清理URL，然后您可以将这些URL写入Amazon RDS。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6668893

复制

相似问题

问我应该使用什么数据存储来存储来自爬虫程序的临时数据？EN