首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >抓取网站并使用python收集所有的超链接

抓取网站并使用python收集所有的超链接
EN

Stack Overflow用户
提问于 2018-07-26 02:16:29
回答 1查看 463关注 0票数 -1

我正在制作一个程序,可以从任何网站获取信息。但是这个程序不起作用。

示例--网站是naukri.com,我们必须收集页面的所有超链接:

代码语言:javascript
复制
import urllib.request, urllib.parse, urllib.error
from bs4 import BeautifulSoup
import ssl

isc = ssl.create_default_context()
isc.check_hostname = False
isc.verify_mode = ssl.CERT_NONE

open = urllib.request.urlopen('https://www.naukri.com/job-listings-Python- 
Developer-Cloud-Analogy-Softech-Pvt-Ltd-Noida-Sector-63-Noida-1-to-2-years-250718003152src=jobsearchDesk&sid=15325422374871&xp=1&px=1&qp=python%20developer 
&srcPage=s', context = isc).read()
soup = BeautifulSoup(open, 'html.parser')

tags = soup('a')

for tag in tags:
    print(tag.get('href', None))
EN

回答 1

Stack Overflow用户

发布于 2018-07-26 04:02:17

我会使用requests和bs4。我能够让它工作,我认为它有预期的结果。试试这个:

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup

url = ('https://www.naukri.com/job-listings-Python-Developer-Cloud-Analogy-Softech-Pvt-Ltd-Noida-Sector-63-Noida-1-to-2-years-250718003152src=jobsearchDesk&sid=15325422374871&xp=1&px=1&qp=python%20developer&srcPage=s')
response = requests.get(url)
page = response.text
soup = BeautifulSoup(page, 'html.parser')
links = soup.find_all('a', href=True)

for each in links:
    print(each.get('href'))
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51525331

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档