如何抓取在检查元素时不存在的链接_如何检查HTML元素是否在子元素上具有链接_如何跳过抓取时无法打开的链接？ - 腾讯云开发者社区

python、selenium、web-scraping

我是新接触硒的..来自这个网站："https://xangle.io/project/list“当我点击下面的任何一个元素时，它会把我带到新的页面。 ? 我想把这些元素的链接都去掉。但问题是，当我检查那些寻找URLs的元素时，我在html中找不到任何URls。下面是html代码的截图： ? 我看了一下元素<

浏览 26提问于2020-04-18得票数 1

回答已采纳

1回答

使用，XPath元素不存在，尽管Google检查元素显示它确实存在

html、google-chrome、xpath、scrapy

根据Scrapy的响应，我遇到了一个问题，在这个问题中，我试图使用他们的XPath选择的元素不存在。然而，当我在Google上查看同一个页面时，元素确实存在。这个问题发生在使用LinkedIn高级搜索和获取结果页面之后的LinkedIn抓取上。我想刮掉结果容器中的链接。例如:在搜索"John“的结果页面上，根据Google上的<

浏览 2提问于2015-07-08得票数 0

回答已采纳

2回答

灯塔在“跳到内容”链接上说“链接不可爬行”。

seo、lighthouse

在我的站点上运行灯塔检查时，我在SEO下收到以下错误：无法爬行的链接是a#main-content，它是“跳到主要内容”的<em

浏览 0提问于2020-12-13得票数 8

1回答

使用Rvest从网站中抓取网页链接

html、r、web-scraping、rvest

我是r和Webscraping的新手。我目前正在抓取一个房地产网站(https://www.immobilienscout24.de/Suche/S-T/Wohnung-Miete/Rheinland-Pfalz/Koblenz?enteredFrom=one_step_search)，但我没有设法抓取具体报价的链接。当使用下面的代码时，我得到了每个链接附加到网站，我不太确定我如何

浏览 24提问于2019-10-01得票数 0

回答已采纳

1回答

Selenium需要30美元才能实现元素id不存在。我该怎么办？

python-2.7、selenium

我正在使用Selenium来抓取/解析一个糟糕的网站(如果它不是很糟糕，我可能不会使用Selenium，而且是的，尊重robots.txt)。我正在使用find_element_by_id()从一个未知大小的表中读取一组链接，并使用顺序元素ids。我正在捕捉NoSuchElementException，告诉我我在表的末尾，没有其他元素可供选择。这可以顺利地遍历存在的元素，但是当我请求不存在

浏览 0提问于2014-04-04得票数 0

回答已采纳

1回答

在php中抓取图片

php、web-crawler

问题是如何获得ajax调用的源代码？这不是抓取的，例如如何抓取像这样的链接上的图片？如果您确实检查了元素，那么它将在图片所在的中间显示正确的代码。但是如何抓取它呢？如何获取所有图片的源码？

浏览 0提问于2014-03-05得票数 1

2回答

使用scrapy和xpath抓取::before和::after之间的HTML元素

html、xpath、scrapy

我正在尝试用scrapy和xpath从python的网页中抓取一些链接，但是我想抓取的元素是介于：：they和::after之间的，所以xpath看不到它们，因为它们不存在于HTML中，而是用javascript动态创建的。有没有办法去掉这些元素呢？<div class="well-white">...</div> <div class=

浏览 2提问于2018-09-12得票数 2

4回答

如何从一个网站中提取所有的url？

python、unix

我正在编写一个程序在Python中提取所有的网址从一个给定的网站。所有的网址都来自一个网站，而不是一个页面。因为我想我不是第一个想这样做的人，我想知道是否有现成的解决方案，或者如果我必须自己编写代码。

浏览 1提问于2012-03-02得票数 1

2回答

我很难使用Beautiful Soup从NCBI网站上抓取数据

web-scraping、beautifulsoup、bioinformatics、ncbi

我无论如何也想不出如何使用漂亮的汤从网页中抓取孤立的源信息，比如：我一直在尝试检查这个标记是否存在，当我知道它确实存在时，它总是返回不存在的结果。如果我甚至不能验证它的存在，我就不知道如何抓取它。

浏览 4提问于2021-04-24得票数 1

1回答

scrapy不能爬行页面中的所有链接

python、shell、xpath、scrapy

我正在尝试scrapy来抓取ajax网站。我检查页面的元素。它看起来是这样的：，所以我想提取与模式/存储/应用程序/详细信息的所有链接?id=我也尝试过//a/@href。也没有结果，但不知道出了什么事.现在，我可以抓取前120个链接与淀粉修改和“格

浏览 5提问于2016-02-09得票数 1

1回答

Chromedp包:如何使用chromedp获取动态加载内容的网页的更新HTML源代码

go、web-scraping、web-crawler、headless-browser

我试图刮网页上的视频链接，有链接，这是通过“网页剪辑”服务，加载页面后加载数据产生的链接。我想在加载完所有的JavaScripts和AJAX之后更新页面的HTML源(类似于我们在浏览器上“检查元素”的时候)。如何通过chromedp包()做到这一点。它是一个用于GoLang的无头浏览器。我是一个网络抓取的新手。编辑:与链接中提到的</e

浏览 89提问于2017-08-29得票数 2

回答已采纳

2回答

如何从Beautiful Soup获取URL？

javascript、python、html、beautifulsoup、html-parsing

我是Python的新手，正在尝试编写一个爬行程序；我想使用Beautiful Soup从BBC新闻中抓取一些数据。 <span>World</s

浏览 2提问于2016-05-03得票数 3

1回答

从延迟加载的视频中抓取视频链接

web-scraping

我正在尝试使用一个名为的包从页面中抓取视频，但是当页面加载时，该视频不会立即呈现，因此当我获得该页面的html代码时，video标记并不存在，但是如果我在浏览器中打开该页面并进行检查，它就会存在。如何在抓取视频之前等待页面加载视频？

浏览 7提问于2018-07-21得票数 0

1回答

试着擦伤一段距离

python、html、beautifulsoup、screen-scraping

我一直在尝试使用Python中的漂亮汤从网站上抓取两个值，这给我带来了麻烦。以下是我正在抓取的页面的网址：我试过： print(

浏览 3提问于2020-09-04得票数 0

回答已采纳

0回答

BeautifulZoup，Selenium网络抓取

javascript、python、selenium

我正在尝试从一个网站(www.hotpads.com)上抓取一些房产信息。我做错了什么？你能给我指点一下如何做这件事吗？请注意，我正在等待页面加载。如果我右击并查看链接</

浏览 1提问于2016-12-27得票数 1

回答已采纳

1回答

Watir不会选择/查找link元素

watir、watir-webdriver

当我想通过以下语法找到锚(链接)元素时，Watir似乎找不到它：如果我尝试检查链接的存在，它会说它不存在，尽管链接在那里。以下是导致此现象的原始源代码的链接：感谢你的帮助

浏览 1提问于2012-06-11得票数 1

1回答

如何使用Scrapy获取带有javascript更改的抓取数据？

javascript、python、web-scraping、scrapy

Javascript隐藏了一些元素，但是当我使用scrapy抓取数据时，这些元素会被抓取，就好像它们没有被Javascript隐藏一样。链接1：链接2：例如:当我使用Scrapy和xpath (//div@id='productDetails'/ul@class='details'/li@id='add_to_cart_li'/a@id='add_

浏览 0提问于2014-05-30得票数 0

5回答

一种高效的算法，用于将唯一的单词保存到文件中

php、file、unique

我目前所做的是，从URL解析文本，然后清理文本并按空格将其分解并保存到文件中。我发现最难的是，案例:从site.com/page1抓取单词并将唯一单词保存到文件中。在抓取site.com/page2时，我需要检查每个单词是否已经在文件中，只有在不存在时才保存。我的想法是，获取$word，并从文件中提取

浏览 1提问于2012-04-10得票数 1

回答已采纳

1回答

如何从API资源管理器中检索数据？

python、html、xml、api、web-scraping

我的问题更多的是在“概念”方面，因为我还没有任何代码显示。我基本上可以访问一个网站的API资源管理器，但是当我将一个特定的url放在API资源管理器中时所获得的信息与我打开一个带有相同网址的网页并“检查”元素时得到的html信息不一样。老实说，我不知道如何检索我需要的数据，因为它们只存在于API资源管理器中，但不能通过web抓取

浏览 5提问于2017-09-04得票数 0

回答已采纳

1回答

由selenium打开的页面为什么与通过常规浏览器打开的页面不同

python、selenium、web-scraping

我在tripadvisor上练习数据抓取，我不明白为什么列表上的倒数第二项(第29项)中的最后一项有一个链接。链接到列表：您可以在图片中看到被检查的元素有错误的链接。在普通浏览器中没有这样的问题。

浏览 5提问于2022-06-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云