首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我应该使用什么数据存储来存储来自爬虫程序的临时数据?

我应该使用什么数据存储来存储来自爬虫程序的临时数据?
EN

Stack Overflow用户
提问于 2011-07-13 02:04:22
回答 1查看 208关注 0票数 3

我的爬虫正在抓取所有网站并从中获取元数据信息。然后,我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。

我的问题是,我应该使用哪个数据存储来存储用于清理目的的数据(删除不需要的URL)。我不希望爬虫击中亚马逊RDS,这会减慢它的速度。

我应该使用亚马逊SimpleDB吗?然后,我可以读取SimpleDB,对网址进行杀毒,然后将其移动到Amazon RDS。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-07-13 02:25:56

您可以始终使用db,但问题出在磁盘访问上。每次进行磁盘访问时,都要读取一堆URL,对它们进行清理,然后再将它们写入另一个数据库,这就是另一个磁盘访问。如果你不关心性能,这个过程是可以的。

一种解决方案是,你可以使用任何像列表一样简单的数据结构,存储一堆或URL,当列表达到阈值时,它会唤醒URL,清理URL,然后您可以将这些URL写入Amazon RDS。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6668893

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档