我有大量数据文件存储在S3中,需要对其进行分析。每个批次由大约50个文件组成,每个文件都可以独立分析。
我想将S3数据并行下载到EC2实例中,并设置对下载的每个文件启动分析过程的触发器。
有没有库可以处理异步下载,在完整的模型上触发?
如果没有,我正在考虑用pyprocessing设置多个下载进程,每个进程都会下载并分析文件的一部分。这听起来合理吗?还是有更好的替代方案?
发布于 2009-03-13 20:37:58
在回答我自己的问题时,我最终对Amazon S3 python库进行了简单的修改,让您可以分块下载文件或逐行阅读。Available here。
发布于 2009-02-11 21:28:42
听起来像是你在找twisted
"Twisted是一个事件驱动的网络引擎,用Python编写,并在麻省理工学院许可下获得许可。“
http://twistedmatrix.com/trac/
我已经在相当多的异步项目中使用了扭曲的python,这些项目既涉及到Internet上的通信,也涉及到子进程的通信。
发布于 2009-02-11 21:30:34
我不知道已经存在的任何东西都可以完全满足您的需求,但即使不是这样,也应该很容易与Python组合在一起。对于线程方法,您可以看看这个,它执行多线程HTTP下载以测试下载镜像。
编辑:我找到的几个包可能会为您完成大部分工作,并且是您正在寻找的包
https://stackoverflow.com/questions/538875
复制相似问题