问使用Python从另一个url抓取需要访问的网页
EN

Stack Overflow用户

提问于 2018-06-15 01:47:36

回答 1查看 49关注 0票数 0

我正在尝试抓取一个网页，它要求我通过一个URL/链接来访问该网站(有点像登录链接)，但是我需要通过该链接循环另一个URL来抓取各个页面。我知道如何抓取单个页面，我只是从来没有循环URL的另一个URL，以获得对网站的访问。

我对这个想法的理解是正确的，还是我错过了什么？

如果这有点令人困惑，我很抱歉。

from bs4 import BeautifulSoup as soup
from urllib.request import urlopen as uReq
import pyfpdf
import time
import random
timeDelay = random.randrange(5, 10)

my_url = 'http://shops3.directedje.com/JACK/product-listing.asp?CID=2065'

uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")

for a in soup.find_all('a', href=True):
    print ("href")

这是我需要访问的链接，首先要访问的是This er.com/DCG

python

url

web-scraping

beautifulsoup

python-requests

回答 1

Stack Overflow用户

发布于 2018-06-15 02:51:37

编辑

您需要使用Requests-NTLM。这将允许通过HTTP进行windows身份验证。

import requests
from requests_ntlm import HttpNtlmAuth



requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))

然后，您需要遵循重定向302响应代码。这应该是你想要的url。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50863201

复制

相似问题

问使用Python从另一个url抓取需要访问的网页
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Python从另一个url抓取需要访问的网页EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Python从另一个url抓取需要访问的网页
EN