我的爬虫正在抓取所有网站并从中获取元数据信息。然后,我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。
我的问题是,我应该使用哪个数据存储来存储用于清理目的的数据(删除不需要的URL)。我不希望爬虫击中亚马逊RDS,这会减慢它的速度。
我应该使用亚马逊SimpleDB吗?然后,我可以读取SimpleDB,对网址进行杀毒,然后将其移动到Amazon RDS。
发布于 2011-07-13 02:25:56
您可以始终使用db,但问题出在磁盘访问上。每次进行磁盘访问时,都要读取一堆URL,对它们进行清理,然后再将它们写入另一个数据库,这就是另一个磁盘访问。如果你不关心性能,这个过程是可以的。
一种解决方案是,你可以使用任何像列表一样简单的数据结构,存储一堆或URL,当列表达到阈值时,它会唤醒URL,清理URL,然后您可以将这些URL写入Amazon RDS。
https://stackoverflow.com/questions/6668893
复制相似问题