因此,我正在尝试抓取登录系统背后的一些东西。我尝试使用CasperJS,但是表单有问题,所以这可能不是解决问题的方法;我检查了网站的源代码,表单名称是“the form”,但我永远不能登录,一定是做错了什么。有没有任何关于如何正确使用CasperJS的教程,我已经看过了应用程序接口和谷歌,但都没有真正起作用。
或者有人有任何关于如何轻松地进行web抓取的建议。我必须能够检查一个简单的条件状态并单击几个按钮,仅此而已。
发布于 2012-11-19 04:27:44
作为CasperJS的作者,不幸的是,如果没有看到真实的代码和任何可重现的测试用例,我无法为您提供太多帮助。
由于您的帖子被标记为Python
,您可能会对Ghost.py感兴趣,这是一个受CasperJS启发但具有Python API的项目。
发布于 2012-11-18 05:16:27
在您的问题中,您提到了CasperJS,但您将问题标记为python。如果您想使用python作为长度,您可以查看描述不同web抓取工具的video
要通过登录来管理网页,您可以使用上面网站中的mechanize示例代码:
br = mechanize.Browser()
# Explicitly configure proxies (Browser will attempt to set good defaults).
# Note the userinfo ("joe:password@") and port number (":3128") are optional.
br.set_proxies({"http": "joe:password@myproxy.example.com:3128",
"ftp": "proxy.example.com",
})
# Add HTTP Basic/Digest auth username and password for HTTP proxy access.
# (equivalent to using "joe:password@..." form above)
br.add_proxy_password("joe", "password")
# Add HTTP Basic/Digest auth username and password for website access.
br.add_password("http://example.com/protected/", "joe", "password")
另一个不错的python选择是scrapy
发布于 2012-11-18 07:19:31
您可以使用mechanize (Python语言中的有状态编程web浏览)登录!
对于解析页面,您可以从BeautifulSoup使用!
https://stackoverflow.com/questions/13434664
复制相似问题