BeautifulSoup断开链接检查器/ web爬虫

python、beautifulsoup、link-checking

我正在尝试构建一个基于这个How- to：https://dev.to/arvindmehairjan/build-a-web-crawler-to-check-for-broken-links-with-python-beautifulsoup-39mg的断开链接检查器然而，我在代码行上遇到了问题，因为当我运行程序时，我得到这个错误消息: File "/Users/Documents/brokenlink

浏览 7提问于2021-04-13得票数 0

1回答

使用onclick="location...“代替href。为什么我应该避免它和其他选项

javascript、html

我们使用的是一个CMS，它提供了一个断开的链接报告；然而，这个断开的链接报告对我们来说是没有用的，因为它检测到大约1300个链接是断开的，因为它们是我们的web应用产品中许多不同屏幕的深层链接。(例如，静态HTML页面链接到需要身份验证的web应用程序，而我们的创作工具无法处理，因此它将该链接标记为已损坏-404。)理想情况下，我们可以依靠CMS报告断开的链接，我

浏览 17提问于2019-02-05得票数 0

回答已采纳

1回答

我如何才能获得完整的链接，而不只是内部链接

python、web-scraping、beautifulsoup、web-crawler

我正在为我工作的公司建立一个爬虫。在爬行其网站时，有一个内部链接不是它所习惯的链接格式。我如何才能获得整个链接，而不只是目录。如果我说得不太清楚，请运行下面我写的代码：from bs4 import BeautifulSoup response = urllib2.urlopen(seed) web_page = respon

浏览 1提问于2015-04-05得票数 1

2回答

在php链接爬虫中禁用外部链接的页面url检查

php、web-crawler

我已经创建了一个独立的链接爬虫脚本，用于查找网站中的破坏链接使用以下脚本。它可以很好地抓取链接。但它还会检查外部链接及其内容页面urls。但这个过程并不需要只检查内部链接、内部链接的内容页面url和外部链接。不想检查外部链接内容页面的url。因此，我需要禁用对外部链接的内容页面url及其imge src的检查。只检查外部<em

浏览 0提问于2014-04-10得票数 0

1回答

Nutch :抓取断开的链接并在Solr中建立索引

nutch

因此，在Nutch中，我们可以进行配置更改，通过该更改，网络爬虫可以爬行断开的链接，并在solr中对其进行索引。一旦所有断开的链接和有效链接在Solr中被索引，我就可以只检查无效的URL，并可以将其从我的HTML页面中删除。提前谢谢。

浏览 1提问于2013-12-11得票数 1

2回答

如何阻止我的爬虫在Google Analytics中显示

google-analytics、web-crawler

我有一个应用程序，检查您的网站的问题，如断开链接和搜索引擎优化问题。几周后，这个爬虫的行为就会出现在访问过的网站的Google Analytics账户中。爬虫不执行任何javascript，并具有以下用户代理: Mozilla/5.0 (兼容；Appname Crawler；+)如何防止这种情况发生？

浏览 2提问于2019-05-04得票数 2

1回答

如何使用BeautifulSoup从instagram个人资料的自传中获取数据

python、beautifulsoup、instagram

我正在使用“Ryan用Python进行Web抓取”一书作为参考。from urllib.request import urlopen userpage = urlopen("https://instagram.com/{}/".forma

浏览 14提问于2022-11-12得票数 0

2回答

查找包含特定参数的内部链接

web-crawler

我正在尝试弄清楚如何抓取一个网站并找到包含特定跟踪参数的链接。原因:我们的一些内容作者在我们的网站(包含数千个页面)的许多内部链接中附加了一个?campaign=test。当然，我得先把它们都找出来…… 我认为自定义爬虫可以做到这一点，但我不是程序员。大多数链接检查器只报告断开的链接，而不是特定的链接参数。也许我只是错过了一些非常明显的东西？

浏览 0提问于2014-10-24得票数 0

2回答

如何从python网页下载所有可下载的内容？

python

以下是网站的网址：网站中的每一页都有一个链接列表，当你点击时它们就开始下载了。

浏览 2提问于2017-06-02得票数 1

回答已采纳

1回答

如何实现广度优先和深度优先搜索网络爬虫？

python-3.x、beautifulsoup、web-crawler、depth-first-search、breadth-first-search

我正试图用Python编写一个带有美丽汤的web爬虫，以便为所有链接抓取一个网页。在我获得主页上的所有链接后，我试图实现深度优先和广度优先搜索，以找到100个附加链接。目前，我已经抓取并获得了主页上的链接。现在我需要帮助实现我的爬虫的深度第一和宽度第一方面。import urllib.request

浏览 0提问于2019-04-20得票数 2

2回答

检查URL是否与另一个URL相关(即它们位于同一主机上)

python、url

我正在写一个简单的爬虫/链接检查器作为研究(因此，不需要建议预先编写的工具)，它检查基本URL是否有任何损坏的链接，并递归地爬行所有其他“内部”页面(即。从同一站点内的基本URL链接的页面)具有相同的意图。在最后，我必须输出链接的列表及其状态(外部/内部，并为每个链接的警告，实际上是内部的，但作为绝对URL呈现。到目前为止，我使用request和BeautifulSoup库检查所

浏览 3提问于2015-08-31得票数 0

3回答

如何使用Python查找所有大写文本的链接(没有第三方解析器)？

python、html、parsing

我在一个简单的函数中使用BeautifulSoup来提取全部为大写文本的链接： """ given HTML, returnsa list of URLs that have ALL CAPS text soup = BeautifulSoup.BeautifulSoup(page_contents)(或lxml，我也尝试过)，这是因为页面上的HTML格式错误，

浏览 2提问于2010-11-04得票数 0

回答已采纳

1回答

用python网络爬虫模拟cookie

python、cookies、python-3.x

我正在尝试使用‘请求’库和BeautifulSoup4库来制作一个web爬虫，但是为了成功地实现这个目的，我必须访问一个链接来激活特定的cookie，这样我就可以搜索该查询的内容。import requests page = 1 source_code = requests.get(url)

浏览 2提问于2014-09-16得票数 0

回答已采纳

2回答

我如何使这个网页爬虫无限？

python、web-scraping、beautifulsoup、web-crawler、python-requests

这是我正在尝试编写的代码(一个web爬虫，它遍历一个链接列表，其中第一个链接是原始链接，然后站点上的链接被追加到列表中，for循环继续遍历列表，因为某种原因，当大约150个链接被追加和打印时，脚本一直停止)from bs4 import BeautifulSoup links = ['http://example.com']sourc

浏览 1提问于2015-08-18得票数 0

回答已采纳

3回答

中断链接和内容编辑器问题

sitecore、sitecore6

我们已经注意到，在我们的sitecore网站上的断开链接的数量有所增加。有些是因为很难验证其中的一些，但有时链接可能有创作页面URL (这意味着有人没有遵循SOP)，有时他们有一个奇怪的url我有几个想法，比如编写一个可以查看所有“富文本字段”的Handler，以及寻找不一致的地方(比如编写服务器URL)。同时，使用爬虫类型的验证器可以帮助我们()，但是我们想知道社区正在

浏览 4提问于2012-11-20得票数 0

回答已采纳

1回答

BeautifulSoup在标记之间什么也得不到

html、python-3.x、beautifulsoup、web-crawler、urllib

我是一个写网络爬虫的新手。我想使用的搜索引擎来检查我的输入是否有效。而如果输入有效，则标记将为：import urllib from bs4 import Beauti

浏览 0提问于2017-10-10得票数 0

1回答

如何让爬虫从相对路径中提取信息？

python、beautifulsoup

我正在试着做一个简单的爬虫，从这个链接的“看关于”部分提取链接 https://en.wikipedia.org/wiki/Web _ 抓取 ..。这是总共19个链接，我已经设法使用美丽汤提取。然而，我将它们作为列表中的相对链接，我还需要通过将它们变成绝对链接来修复它们。预期的结果将如下所示： ? 然后我想使用同样的19个链接，并从中提取更多的信息。例如，19个链接中每个链接</

浏览 21提问于2021-03-01得票数 0

回答已采纳

10回答

如何在网站上查找断开的链接

html

推荐使用什么技术或工具来查找网站上的断开链接？我有权访问日志文件，所以可以想象这些解析寻找404错误，但希望一些自动化的东西，将遵循(或尝试遵循)网站上的所有链接。

浏览 0提问于2008-09-15得票数 43

回答已采纳

1回答

Python: spider递归循环

python、web-crawler

我有一个简单的BeautifulSoup爬虫，它返回深度2或更深的服务器链接，具体取决于添加的功能数量：from bs4 import BeautifulSoup pageFull = requests.get(address) soup = BeautifulSoupdef depth2(address):

浏览 2提问于2016-05-17得票数 1

回答已采纳

1回答

美丽的汤不适合所有的urls

python-3.x、web-scraping、beautifulsoup、attributeerror

错误说： def product_crawler(): soup = BeautifulSoup(page.content, 'html.parser') title = soup.find(id="prod

浏览 0提问于2021-07-19得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用onclick="location...“代替href。为什么我应该避免它和其他选项

我如何才能获得完整的链接，而不只是内部链接

在php链接爬虫中禁用外部链接的页面url检查

Nutch :抓取断开的链接并在Solr中建立索引

如何阻止我的爬虫在Google Analytics中显示

如何使用BeautifulSoup从instagram个人资料的自传中获取数据

查找包含特定参数的内部链接

如何从python网页下载所有可下载的内容？

如何实现广度优先和深度优先搜索网络爬虫？

检查URL是否与另一个URL相关(即它们位于同一主机上)

如何使用Python查找所有大写文本的链接(没有第三方解析器)？

用python网络爬虫模拟cookie

我如何使这个网页爬虫无限？

中断链接和内容编辑器问题

BeautifulSoup在标记之间什么也得不到

如何让爬虫从相对路径中提取信息？

如何在网站上查找断开的链接

Python: spider递归循环

美丽的汤不适合所有的urls

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐