文章/答案/技术大牛

发布

使用网络抓取提取链接的问题

使用网络抓取和提取链接是指通过网络爬虫程序自动访问网页，并从中提取出需要的链接信息。这种技术在互联网数据收集、信息抓取和数据分析等领域中起着重要作用。

网络抓取是指通过网络爬虫程序自动访问网页并获取网页内容的过程。网络爬虫是一种自动化程序，可以按照设定的规则自动浏览网页，获取网页内容，进而提取出需要的信息。网络爬虫可以模拟人类浏览网页的行为，例如点击链接、填写表单、提交数据等。

提取链接是指从获取到的网页内容中提取出需要的链接信息。网页中的链接通常是以超文本标记语言（HTML）的形式出现，通过解析HTML文档，可以提取出其中的链接。提取的链接可以是其他网页的URL，也可以是其他资源（例如图片、视频等）的URL。

网络抓取和提取链接的应用场景非常广泛。例如，在搜索引擎中，搜索引擎会使用网络抓取和链接提取技术来收集互联网上的网页，并建立索引，以便用户进行检索。此外，网络抓取和链接提取也可以用于数据分析、舆情监控、新闻爬取、价格比较等领域。

在腾讯云中，可以使用云函数（SCF）进行网络抓取和链接提取任务。云函数是一种无服务器的计算服务，可以根据触发器自动调用函数。通过编写腾讯云函数，可以实现网络抓取和链接提取的功能。另外，腾讯云还提供了云原生应用引擎（TKE）和云数据库（CDB）等产品，用于构建和管理云原生应用和存储数据，这些产品在网络抓取和链接提取任务中也可以发挥作用。

使用网络抓取提取链接的问题

、、

我想提取这个网页中列出的玩具的链接：https://cebra.com.ar/category/73/Juego-de-Construccion.html 我有一个完整的过程(我不在这里拷贝，因为它非常长和复杂)，在某些部分，我有以下代码不工作： Cells(erow, 1) = html.getElementsByTagName("a").href 有什么办法解决这个问题吗？

浏览 33提问于2019-06-18得票数 1

回答已采纳

1回答

使用BeautifulSoup抓取的数据与源代码不匹配

、、、

我是网络抓取的新手。我已经看过一些关于如何使用漂亮的汤来抓取网站的教程。作为练习，我想从一个房地产网站上提取数据。我想要抓取的特定页面是这个：我遇到<e

浏览 4提问于2021-05-02得票数 1

6回答

网络抓取和网络抓取有什么不同？

、、

爬行和网络抓取有区别吗？如果有不同之处，为了收集一些网络数据来提供一个数据库，以便在定制的搜索引擎中使用，最好的方法是什么？

浏览 2提问于2010-12-02得票数 96

回答已采纳

6回答

爬虫vs刮板

、、

有人能在范围和功能方面区分爬虫和刮板吗？

浏览 0提问于2010-07-09得票数 71

回答已采纳

1回答

使用import.io在多个不同结构的网站中搜索单词

、、

我有一个超过10.000个网站的列表，我想在所有这些网站中搜索一个关键字。如果网站包含关键字，则预期的结果应该类似于链接和值为1的列，如果不包含关键字，则值为0。有没有办法使用import.io指定要搜索的网站列表和关键字？

浏览 1提问于2015-12-22得票数 0

1回答

如何从10fast typing中提取我的打字数据？

、

因此，我正在使用网站10fastfingers.com，并且我想使用Python web抓取来从该网站提取我的输入数据。现

浏览 2提问于2021-05-12得票数 0

3回答

从社交媒体网络中提取数据

、、、

我正在尝试创建一个Web应用程序，它将能够分析社交媒体的概况。我想分析的社交网站有Facebook、Twitter和YouTube。我想使用数据提取工具API作为我的后端.我发现的许多工具要么昂贵，要么不起作用。我对Facebook、Twitter和YouTube API以及NodeXL等都进行了研究。请有人建议我可以使用的免费的API吗？最好是那些不会太难执行的项目。

浏览 5提问于2015-04-14得票数 0

回答已采纳

1回答

如何使用crawler4j提取页面上的所有链接？

、、、、

我正在实现一个网络爬虫，我使用的是Crawler4j库。我不会在一个网站上得到所有的链接。我试图用Crawler4j提取一个页面上的所有链接，但错过了一些链接。Crawler4j版本: crawler4j-3.3不是的。这个页面上的链接数量:几乎60个，其中4-5个是重复的不是的。crawler4j给出的链接

浏览 1提问于2012-07-03得票数 1

回答已采纳

1回答

用Python抓取Web应用程序

、

到目前为止，我在网络抓取方面的大部分经验都是非常简单和容易理解的。发送请求，下载HTML，并提取所需的信息。目前，我对从Spotify Web应用程序中抓取顶级游戏数据感兴趣。这些数据无法通过API访问，但在浏览不同的艺术家页面时可以看到。我的问题是，这些数据是如何在幕后生成的，是否有可能抓取这些数据？

浏览 5提问于2015-02-09得票数 2

1回答

如何从一系列页面下载数据？

示例：我想从 (虚拟URL)下载所有数据，其中X为1到1000，每个页面都是包含数据行数据的JSON。(我不想手动添加1000个URL，OpenRefine似乎不允许粘贴URL列表)。我想从中的所有页面下载所有表中的数据，每个页面都包含多个HTML。

浏览 1提问于2018-11-22得票数 0

1回答

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

、、

我正在使用亚马逊网络服务创建一条数据传输线，我的数据存储在亚马逊S3存储桶中，我计划使用胶水爬虫在前缀下抓取数据以提取元数据，并在胶水作业之后执行ETL并将数据保存到另一个存储桶中。我的问题是:这些服务在哪个网络中工作并相互通信？有没有可能通过公共互联网将数据从亚马逊S3移动到胶水？是否有任何指向aws文档的链接，用于解释AWS服务在它们之间传输数据时使用哪些网络</em

浏览 18提问于2021-06-29得票数 1

1回答

用漂亮的汤刮链子有困难

、、、

这里的Python学生，学习网络抓取的基础知识。试图从我从网页中抓取的这个bs4元素中提取链接。Budget</a></li>,因此，当我试图提取链接</

浏览 2提问于2022-10-01得票数 -1

1回答

在R中通过网络抓取获得的Google搜索链接不是所需的格式

、

我不熟悉R中的网络抓取，并且尝试使用R中的搜索词运行google搜索操作，并自动提取链接。我部分成功地获得了使用RCurl和XML包的谷歌搜索结果的链接。但是，我提取的href链接包含不需要的信息，并且不是"URL“格式。我使用的代码是：l

浏览 18提问于2016-08-13得票数 1

回答已采纳

3回答

我的任务是创建一个网络抓取软件，我甚至不知道从哪里开始。任何帮助都将不胜感激，即使只是告诉我这些数据是如何组织的，或者网站使用的是什么“类型”的数据布局也会有所帮助，因为我可以用谷歌搜索那个词。基本上，我需要从这个网站提取“谐波值”。具体地说，我需要在第二个链接上显示9个数字。这些数字不会传递给HTML，它们似乎每隔几秒钟就会自动更新一次。我需要能够实时提取这些值，因为它们更新。即使这是不可能的，我

浏览 0提问于2013-10-26得票数 1

1回答

如何从多个页面的搜索结果中抓取数据？

、

我对使用Xpath和google sheets函数IMPORTXML( URL；Xpath)从包含多个页面的搜索结果的URL进行web抓取有疑问:我希望从其中提取数据(特别是每个结果的链接)的页面是：为了澄清我的解释，我通过链接附上了几张图片： //td[@class='msDataText gridFundName Shr

浏览 26提问于2018-10-08得票数 1

回答已采纳

1回答

用BeautifulSoup - HTML不同格式从CSS类链接中提取标题

、

我刚开始使用BeautifulSoup进行网络抓取，并遇到了以下问题:我试图从论坛上抓取帖子，我想提取帖子的标签。下面是标记类的HTML代码：这种格式在整个表单中是一致的。我试着用汤的“标题”

浏览 5提问于2021-06-08得票数 0

回答已采纳

1回答

如何在jsoup中加载文档之前获取http内容长度

、

我正在做一些网络刮刮，在java中使用jsoup以广度第一的方式。换句话说，对于每个页面，我提取所有链接并将它们添加到一个队列中进行抓取，然后在while循环中删除并刮掉urls，当队列为空时停止。我要做的是，在将链接添加到用于抓取的边界/队列之前，根据目标文档的大小对它们进行排序，以便首先对较小的文档进行抓取。在实际下载整个文档之前，是否有方法从url

浏览 1提问于2018-05-21得票数 2

回答已采纳

2回答

未从ipv4网络解析ipv6 dns名称

、、、、

我有一个奇怪的问题，这似乎是ipv6与ipv4域名的问题。我有一个实时刮板，运行在我的服务器上，运行在ipv6网络上。抓取之后，这个抓取器通过ajax调用将一些urls返回给网页上的图像，然后这些图像通过抓取器返回的链接显示在我的本地机器上的浏览器中。但是这些urls不能在我的本地网络上解析。我的</

浏览 2提问于2012-06-27得票数 1

回答已采纳

1回答

如何在不导入整个模块的情况下处理lxml错误？

、、、

我有一个Python (3.6)脚本作为网络蜘蛛运行。它抓取页面的内容，提取链接并抓取它们。它使用lxml.html来处理链接，并使用我正在尝试为它在运行时可能遇到的每个错误创建自定义响应。有没有办法在不导入整个模块的情况下捕获错误？

浏览 7提问于2017-05-21得票数 0

3回答

用R进行网络抓取

、、

我在从一个网站上抓取数据时遇到了一些问题。首先，我对网络抓取没有太多经验.我的计划是使用R从以下网站刮取一些数据：xmltext <- htmlParse("http://spiderbook.com/company/17495/details?strsplit(x, " &quo

浏览 5提问于2014-11-01得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用网络抓取提取链接的问题

相关·内容

使用网络抓取提取链接的问题

使用BeautifulSoup抓取的数据与源代码不匹配

网络抓取和网络抓取有什么不同？

爬虫vs刮板

使用import.io在多个不同结构的网站中搜索单词

如何从10fast typing中提取我的打字数据？

从社交媒体网络中提取数据

如何使用crawler4j提取页面上的所有链接？

用Python抓取Web应用程序

如何从一系列页面下载数据？

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

用漂亮的汤刮链子有困难

在R中通过网络抓取获得的Google搜索链接不是所需的格式

Web抓取、数据挖掘、数据提取

如何从多个页面的搜索结果中抓取数据？

用BeautifulSoup - HTML不同格式从CSS类链接中提取标题

如何在jsoup中加载文档之前获取http内容长度

未从ipv4网络解析ipv6 dns名称

如何在不导入整个模块的情况下处理lxml错误？

用R进行网络抓取

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐