我正在尝试抓取一个网页,它要求我通过一个URL/链接来访问该网站(有点像登录链接),但是我需要通过该链接循环另一个URL来抓取各个页面。我知道如何抓取单个页面,我只是从来没有循环URL的另一个URL,以获得对网站的访问。
我对这个想法的理解是正确的,还是我错过了什么?
如果这有点令人困惑,我很抱歉。
from bs4 import BeautifulSoup as soup
from urllib.request import urlopen as uReq
import pyfpdf
import time
import random
timeDelay = random.randrange(5, 10)
my_url = 'http://shops3.directedje.com/JACK/product-listing.asp?CID=2065'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
for a in soup.find_all('a', href=True):
print ("href")
这是我需要访问的链接,首先要访问的是This er.com/DCG
发布于 2018-06-15 02:51:37
编辑
您需要使用Requests-NTLM。这将允许通过HTTP进行windows身份验证。
import requests
from requests_ntlm import HttpNtlmAuth
requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))
然后,您需要遵循重定向302响应代码。这应该是你想要的url。
https://stackoverflow.com/questions/50863201
复制相似问题