我想知道是否有任何方法可以用Python从受限制的网页中抓取html。
我已经能够在一个网页上执行登录,但我想在登录后抓取另一个页面,但网址显示该页面的模式为:main_url/Restricted/Index.aspx
除了不受限制的部分之外,我无法获得整个页面的HTML。如何获取受限制网页的完整HTML?到目前为止,我的代码如下:
from lxml import html
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen
from requests import Session
payload
我用python编写了一个脚本,使用selenium从网页中获取一些特定的信息。由于该网页是保密的,我不能透露网站地址。无论如何,我期待着我现有的抓取器将点击网页上20个链接中的每个链接,并到达所需的页面,它将收集信息并返回到较早的页面,重复相同的操作,直到所有20个链接都耗尽。然而,抓取器点击一个链接,转到所需的页面解析信息,但没有返回主页重复操作,它中断了。我的循环过程似乎有问题。下面是我的脚本中的一些行,它可能会给你任何想法,为我提供一个变通的方法。
for link in wait.until(EC.presence_of_all_elements_located((By.CSS_SE
我目前正在使用Selenium和PhantomJS与Python一起抓取呈现的网页。很容易检查HTML内容中是否存在某个单词(例如。),但是我有兴趣在页面中搜索包含值大于或等于某个值的if "example" in html属性的元素。
例如,最理想的做法是抓取一个站点列表,并保存具有CSS为元素提供z索引的页面,这个值异常大。所有内容都是构建的,除了呈现的页面的CSS爬行功能。有人对此有什么建议吗?
我有一个由heroku托管的网络抓取应用程序,我用它来抓取大约40个公司网页。其中的27个几乎总是在heroku上给我403个错误,但是如果我在本地运行代码,每个页面都工作得很好。
在运行应用程序大约25分钟后,收到403个错误(时间范围变化很大),所有页面都神奇地开始工作,但如果应用程序重新启动,将再次返回403秒。
我如何才能完全避免这403错误的发生呢?相关代码如下:
from bs4 import BeautifulSoup as soup
import urllib.request as ureq
from urllib.error import HTTPError
import t