我现在开始用漂亮的汤来抓取网站,我想我已经掌握了基本的知识,虽然我缺乏网页的理论知识,但我会尽我最大的努力来表达我的问题。
我所说的动态网页是这样的:一个网站,它的HTML会根据用户的动作而改变,在我的例子中,它是可折叠的表格。
我想获得一些"div“标签中的数据,但是当你加载页面时,数据在html代码中似乎是不可用的,当你点击表格时,它会展开,这个"div”的"class“从类似于"something blabla collapsible”变成了"something blabla collapsible active“,这是我可以用我的知识抓取的。
我能用漂亮汤得到这个数据吗?如果我不能,我想使用像selenium这样的东西来点击所有的表,然后下载html,我可以刮掉它,有没有更简单的方法?
非常感谢。
发布于 2016-11-22 03:41:29
那得看情况。如果在页面加载时已经加载了数据,则数据可供抓取,只是位于不同的元素中,或者被隐藏。如果click事件以某种方式触发了数据加载,那么您将需要Selenium或另一个无头浏览器来自动执行此操作。
美汤是唯一的解析器,所以你通过请求页面得到的任何数据都是美汤可以访问的唯一数据。
https://stackoverflow.com/questions/40732906
复制相似问题