如何使用Python从另一个url中抓取需要访问的网页?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (1)
  • 关注 (0)
  • 查看 (385)

我试图抓取一个网页,要求我通过一个URL/链接访问网站(有点像一个登录链接),但我需要循环另一个URL通过该链接,以刮除个别网页。我知道如何抓取单个网页,我只是从来没有循环URL到另一个URL,以获得对一个网站的访问。

from bs4 import BeautifulSoup as soup
from urllib.request import urlopen as uReq
import pyfpdf
import time
import random
timeDelay = random.randrange(5, 10)

my_url = 'http://shops3.directedje.com/JACK/product-listing.asp?CID=2065'

uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")

for a in soup.find_all('a', href=True):
    print ("href")

这是我需要访问的链接: thermofisher.com/DCG

提问于
用户回答回答于

你需要使用请求-NTLM,这将允许通过HTTP进行Windows身份验证。

import requests
from requests_ntlm import HttpNtlmAuth



requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))

然后,你需要遵循重定向302响应代码。

扫码关注云+社区

领取腾讯云代金券