作为练习的一部分,我正在尝试从网页中抓取数据,但网页的设置方式似乎正在挫败我的一些努力。基本上,我认为网页需要一段时间来加载我感兴趣的功能,因此,当我运行代码来提取我想要的数据时,它失败了。这是网页:https://www.cbn.gov.ng/rates/ExchRateByCurrency.asp 我注意到,即使在检查源代码时,表部分也需要一段时间才能加载。 下面是我的代码: from bs4 import BeautifulSoup as bs
from requests import get
html = get("https://www.cbn.gov.ng/rates/
我正在尝试抓取一个网页,它要求我通过一个URL/链接来访问该网站(有点像登录链接),但是我需要通过该链接循环另一个URL来抓取各个页面。我知道如何抓取单个页面,我只是从来没有循环URL的另一个URL,以获得对网站的访问。
我对这个想法的理解是正确的,还是我错过了什么?
如果这有点令人困惑,我很抱歉。
from bs4 import BeautifulSoup as soup
from urllib.request import urlopen as uReq
import pyfpdf
import time
import random
timeDelay = random.randrange
嗨,我有问题让我的抓取蜘蛛脚本登录到aspx (asp.net)网站 该脚本本应抓取一个网站的产品信息(这是一个供应商的网站,所以我们被允许这样做),但无论什么原因,该脚本不能登录到网页使用下面的脚本,有一个用户名和密码字段以及一个图像按钮,但当脚本运行它根本不起作用,我们被重定向到主页…我相信这与页面的asp.net有关,显然我需要传递更多的信息,但我已经诚实地尝试了所有方法,我不知道下一步该做什么! 我做错了什么? import scrapy
class LeedaB2BSpider(scrapy.Spider):
name = 'leedab2b'
s