我的任务是创建一个“海量爬虫”,它完全依赖于数据库中的代理。以下是我试图实现的目标的一个简单概述:
1 x CronJob引导文件-这个文件发送50个并行curl请求到单个爬虫文件。1x单个的Crawler文件-这应该是从数据库中获取一个唯一的行(代理),而另一个进程还没有选择。我已经看过TRANSACTIONS和mySQL,但我仍然认为这样做不会有帮助,因为查询将在每个单独的爬虫进程完全相同的时间执行。以下是我在脑海中对个人爬虫
我有一个亚马逊胶水爬虫,它查看一个特定的s3位置,包含avro文件。我有一个进程,它在那个位置的一个新的子文件夹中输出文件。一旦我手动运行爬虫,新的子文件夹将被视为数据库中的一个新表,它也将是可从雅典娜查询的。
有什么方法可以使进程自动化,并以编程方式调用爬虫,但只指定新的子文件夹,这样它就不必扫描整个父文件夹结构了吗?我希望将表添加到数据库中,而不是将分区添加到现有表中。glue', r