腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
BeautifulSoup
断开
链接
检查
器
/
web
爬虫
python
、
beautifulsoup
、
link-checking
我正在尝试构建一个基于这个How- to:https://dev.to/arvindmehairjan/build-a-
web
-crawler-to-check-for-broken-links-with-python-
beautifulsoup
-39mg的
断开
链接
检查
器
然而,我在代码行上遇到了问题,因为当我运行程序时,我得到这个错误消息: File "/Users/Documents/brokenlink
浏览 7
提问于2021-04-13
得票数 0
1
回答
使用onclick="location...“代替href。为什么我应该避免它和其他选项
javascript
、
html
我们使用的是一个CMS,它提供了一个
断开
的
链接
报告;然而,这个
断开
的
链接
报告对我们来说是没有用的,因为它检测到大约1300个
链接
是
断开
的,因为它们是我们的
web
应用产品中许多不同屏幕的深层
链接
。(例如,静态HTML页面
链接
到需要身份验证的
web
应用程序,而我们的创作工具无法处理,因此它将该
链接
标记为已损坏-404。)理想情况下,我们可以依靠CMS报告
断开
的
链接
,我
浏览 17
提问于2019-02-05
得票数 0
回答已采纳
1
回答
我如何才能获得完整的
链接
,而不只是内部
链接
python
、
web-scraping
、
beautifulsoup
、
web-crawler
我正在为我工作的公司建立一个
爬虫
。在爬行其网站时,有一个内部
链接
不是它所习惯的
链接
格式。我如何才能获得整个
链接
,而不只是目录。如果我说得不太清楚,请运行下面我写的代码:from bs4 import
BeautifulSoup
response = urllib2.urlopen(seed)
web
_page = respon
浏览 1
提问于2015-04-05
得票数 1
2
回答
在php
链接
爬虫
中禁用外部
链接
的页面url
检查
php
、
web-crawler
我已经创建了一个独立的
链接
爬虫
脚本,用于查找网站中的破坏
链接
使用以下脚本。 它可以很好地抓取
链接
。但它还会
检查
外部
链接
及其内容页面urls。但这个过程并不需要只
检查
内部
链接
、内部
链接
的内容页面url和外部
链接
。不想
检查
外部
链接
内容页面的url。因此,我需要禁用对外部
链接
的内容页面url及其imge src的
检查
。只
检查
外部<em
浏览 0
提问于2014-04-10
得票数 0
1
回答
Nutch :抓取
断开
的
链接
并在Solr中建立索引
nutch
因此,在Nutch中,我们可以进行配置更改,通过该更改,网络
爬虫
可以爬行
断开
的
链接
,并在solr中对其进行索引。一旦所有
断开
的
链接
和有效
链接
在Solr中被索引,我就可以只
检查
无效的URL,并可以将其从我的HTML页面中删除。提前谢谢。
浏览 1
提问于2013-12-11
得票数 1
2
回答
如何阻止我的
爬虫
在Google Analytics中显示
google-analytics
、
web-crawler
我有一个应用程序,
检查
您的网站的问题,如
断开
链接
和搜索引擎优化问题。几周后,这个
爬虫
的行为就会出现在访问过的网站的Google Analytics账户中。
爬虫
不执行任何javascript,并具有以下用户代理: Mozilla/5.0 (兼容;Appname Crawler;+)如何防止这种情况发生?
浏览 2
提问于2019-05-04
得票数 2
1
回答
如何使用
BeautifulSoup
从instagram个人资料的自传中获取数据
python
、
beautifulsoup
、
instagram
我正在使用“Ryan用Python进行
Web
抓取”一书作为参考。from urllib.request import urlopen userpage = urlopen("https://instagram.com/{}/".forma
浏览 14
提问于2022-11-12
得票数 0
2
回答
查找包含特定参数的内部
链接
web-crawler
我正在尝试弄清楚如何抓取一个网站并找到包含特定跟踪参数的
链接
。原因:我们的一些内容作者在我们的网站(包含数千个页面)的许多内部
链接
中附加了一个?campaign=test。当然,我得先把它们都找出来…… 我认为自定义
爬虫
可以做到这一点,但我不是程序员。大多数
链接
检查
器
只报告
断开
的
链接
,而不是特定的
链接
参数。也许我只是错过了一些非常明显的东西?
浏览 0
提问于2014-10-24
得票数 0
2
回答
如何从python网页下载所有可下载的内容?
python
以下是网站的网址:网站中的每一页都有一个
链接
列表,当你点击时它们就开始下载了。
浏览 2
提问于2017-06-02
得票数 1
回答已采纳
1
回答
如何实现广度优先和深度优先搜索网络
爬虫
?
python-3.x
、
beautifulsoup
、
web-crawler
、
depth-first-search
、
breadth-first-search
我正试图用Python编写一个带有美丽汤的
web
爬虫
,以便为所有
链接
抓取一个网页。在我获得主页上的所有
链接
后,我试图实现深度优先和广度优先搜索,以找到100个附加
链接
。目前,我已经抓取并获得了主页上的
链接
。现在我需要帮助实现我的
爬虫
的深度第一和宽度第一方面。import urllib.request
浏览 0
提问于2019-04-20
得票数 2
2
回答
检查
URL是否与另一个URL相关(即它们位于同一主机上)
python
、
url
我正在写一个简单的
爬虫
/
链接
检查
器
作为研究(因此,不需要建议预先编写的工具),它
检查
基本URL是否有任何损坏的
链接
,并递归地爬行所有其他“内部”页面(即。从同一站点内的基本URL
链接
的页面)具有相同的意图。在最后,我必须输出
链接
的列表及其状态(外部/内部,并为每个
链接
的警告,实际上是内部的,但作为绝对URL呈现。到目前为止,我使用request和
BeautifulSoup
库
检查
所
浏览 3
提问于2015-08-31
得票数 0
3
回答
如何使用Python查找所有大写文本的
链接
(没有第三方解析
器
)?
python
、
html
、
parsing
我在一个简单的函数中使用
BeautifulSoup
来提取全部为大写文本的
链接
: """ given HTML, returnsa list of URLs that have ALL CAPS text soup =
BeautifulSoup
.
BeautifulSoup
(page_contents)(或lxml,我也尝试过),这是因为页面上的HTML格式错误,
浏览 2
提问于2010-11-04
得票数 0
回答已采纳
1
回答
用python网络
爬虫
模拟cookie
python
、
cookies
、
python-3.x
我正在尝试使用‘请求’库和
BeautifulSoup
4库来制作一个
web
爬虫
,但是为了成功地实现这个目的,我必须访问一个
链接
来激活特定的cookie,这样我就可以搜索该查询的内容。import requests page = 1 source_code = requests.get(url)
浏览 2
提问于2014-09-16
得票数 0
回答已采纳
2
回答
我如何使这个网页
爬虫
无限?
python
、
web-scraping
、
beautifulsoup
、
web-crawler
、
python-requests
这是我正在尝试编写的代码(一个
web
爬虫
,它遍历一个
链接
列表,其中第一个
链接
是原始
链接
,然后站点上的
链接
被追加到列表中,for循环继续遍历列表,因为某种原因,当大约150个
链接
被追加和打印时,脚本一直停止)from bs4 import
BeautifulSoup
links = ['http://example.com']sourc
浏览 1
提问于2015-08-18
得票数 0
回答已采纳
3
回答
中断
链接
和内容编辑
器
问题
sitecore
、
sitecore6
我们已经注意到,在我们的sitecore网站上的
断开
链接
的数量有所增加。有些是因为 很难验证其中的一些,但有时
链接
可能有创作页面URL (这意味着有人没有遵循SOP),有时他们有一个奇怪的url我有几个想法,比如编写一个可以查看所有“富文本字段”的Handler,以及寻找不一致的地方(比如编写服务
器
URL)。同时,使用
爬虫
类型的验证
器
可以帮助我们(),但是我们想知道社区正在
浏览 4
提问于2012-11-20
得票数 0
回答已采纳
1
回答
BeautifulSoup
在标记之间什么也得不到
html
、
python-3.x
、
beautifulsoup
、
web-crawler
、
urllib
我是一个写网络
爬虫
的新手。我想使用的搜索引擎来
检查
我的输入是否有效。而如果输入有效,则标记将为:import urllib from bs4 import
Beauti
浏览 0
提问于2017-10-10
得票数 0
1
回答
如何让
爬虫
从相对路径中提取信息?
python
、
beautifulsoup
我正在试着做一个简单的
爬虫
,从这个
链接
的“看关于”部分提取
链接
https://en.wikipedia.org/wiki/
Web
_ 抓取 ..。这是总共19个
链接
,我已经设法使用美丽汤提取。然而,我将它们作为列表中的相对
链接
,我还需要通过将它们变成绝对
链接
来修复它们。预期的结果将如下所示: ? 然后我想使用同样的19个
链接
,并从中提取更多的信息。例如,19个
链接
中每个
链接</
浏览 21
提问于2021-03-01
得票数 0
回答已采纳
10
回答
如何在网站上查找
断开
的
链接
html
推荐使用什么技术或工具来查找网站上的
断开
链接
? 我有权访问日志文件,所以可以想象这些解析寻找404错误,但希望一些自动化的东西,将遵循(或尝试遵循)网站上的所有
链接
。
浏览 0
提问于2008-09-15
得票数 43
回答已采纳
1
回答
Python: spider递归循环
python
、
web-crawler
我有一个简单的
BeautifulSoup
爬虫
,它返回深度2或更深的服务
器
链接
,具体取决于添加的功能数量:from bs4 import
BeautifulSoup
pageFull = requests.get(address) soup =
BeautifulSoup
def depth2(address):
浏览 2
提问于2016-05-17
得票数 1
回答已采纳
1
回答
美丽的汤不适合所有的urls
python-3.x
、
web-scraping
、
beautifulsoup
、
attributeerror
错误说: def product_crawler(): soup =
BeautifulSoup
(page.content, 'html.parser') title = soup.find(id="prod
浏览 0
提问于2021-07-19
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
总结:常用的 Python 爬虫技巧
Python爬虫教程-一些针对小白、新手常用的爬虫技巧总结
学习 Python 爬虫?总结了八种学习爬虫的常用技巧
大牛程序员教你1天入门Python3 网络爬虫例子
Python爬虫入门,快速抓取大规模数据2
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券