我有一个网站,我从那里下载2-3MB的原始数据,然后馈送到ETL进程加载到我的数据集市。不幸的是,数据提供者是美国部门。Ag (USDA),他们不允许通过FTP下载。它们要求我使用web表单选择我想要的元素,通过2-3个屏幕单击,最后单击以下载文件。我想让这个下载过程自动化。我不是一名web开发人员,但似乎我应该能够使用一些工具来告诉我从最终请求到服务器的put/get/magic到底是什么。如果我有一个工具告诉我,“将这些参数传递给这个url并等待响应”,那么我就可以在Perl中组合一些东西来自动化这个过程。
我意识到,如果我解构他们所有的5个页面,通读JavaScript收录,然后一起点击3次,我就可以从我有权访问的内容中获得这些信息。但我想要一个更快、更直接的路径,它不需要我手动解析所有的JS。
最后一个问题的重述:有没有工具或方法可以清楚地显示从web表单发送的最终请求是什么以及它是如何构造的?
发布于 2008-11-18 17:35:26
发布于 2008-11-18 17:35:14
使用Fiddler2作为代理来查看来回传递的内容。我已经在其他类似的情况下成功地做到了这一点
主页在这里:http://www.fiddler2.com/fiddler2/
发布于 2008-11-20 01:32:59
与其他响应一样,除了我选择的工具是Charles之外
https://stackoverflow.com/questions/299474
复制相似问题