状态页如下所示:
http://h20000.www2.hp.com/bc/docs/support/SupportDocument/c00002742/c00004781.gif
你看到设备状态标题下面的文字了吗?这就是我想要刮掉的。
导航到时,状态页将更新。我从页面源码中提取了以下内容:
<form id="deviceStatusPage" method="post" action="this.LCDispatcher?nav=hp.DeviceStatus">
我似乎不能理解它到底在做什么,所以很难制定出一个好的抓取策略。我相当确定解决方案将是微不足道的,但我似乎根本不能开始。
我应该说我一直在玩机械化和美汤。前者似乎可以达到我想要的效果,但我不确定如何实现。
发布于 2012-02-05 21:49:45
使用抓取库。BeautifulSoup
是一个很好的工具。mechanize
和BeautifulSoup
共同构成了非常有用的抓取器。
https://stackoverflow.com/questions/9149622
复制相似问题