文章/答案/技术大牛

发布

从似乎发生变化的网站中抓取数据的问题

从似乎发生变化的网站中抓取数据是一个常见的问题，通常可以通过以下几种方式来解决：

网页爬虫：网页爬虫是一种自动化程序，可以模拟人类浏览器行为，访问网页并提取所需数据。爬虫可以通过解析网页的HTML结构，定位和提取目标数据。常用的网页爬虫框架有Scrapy和BeautifulSoup。腾讯云提供的相关产品是腾讯云爬虫。
API接口：有些网站提供了API接口，可以直接通过API获取数据。API接口通常提供了标准的数据格式和访问方式，开发者可以根据接口文档进行调用。腾讯云提供的相关产品是腾讯云API网关。
动态网页渲染：一些网站使用了JavaScript等技术进行动态内容的加载和渲染，传统的网页爬虫无法获取到这些动态生成的内容。可以使用无头浏览器（Headless Browser）来模拟浏览器行为，执行JavaScript代码并获取渲染后的页面内容。腾讯云提供的相关产品是腾讯云无头浏览器。
数据订阅：一些网站提供了数据订阅服务，可以通过订阅服务获取网站数据的更新。开发者可以根据订阅的数据进行处理和分析。腾讯云提供的相关产品是腾讯云消息队列CMQ。
人工智能技术：对于一些复杂的网站，可以使用人工智能技术进行数据抓取。例如，使用自然语言处理技术对网页内容进行分析和理解，提取所需数据。腾讯云提供的相关产品是腾讯云自然语言处理。

总结起来，从似乎发生变化的网站中抓取数据可以通过网页爬虫、API接口、动态网页渲染、数据订阅和人工智能技术等方式来实现。腾讯云提供了相关的产品和服务来支持这些需求，具体可以参考腾讯云官网的相关产品介绍。

从似乎发生变化的网站中抓取数据的问题

、、、

我正在尝试从https://gbr.milesplit.com/athletes/pro/5424599/stats上的PR学院表中抓取数据，代码看起来像这样 prTable = wait.until(EC.presence_of_element_located((By.XPATH, '/html/body/div[5]/div/aside/div[4]/table&

浏览 13提问于2020-10-20得票数 2

回答已采纳

1回答

与完整的网站相比，我抓取的HTML代码似乎并不完整。HTML会动态变化吗？

、

我目前正在抓取一个网站，以便能够在本地对数据进行排序，然而，当我这样做时，代码似乎不完整，我觉得在我滚动网站以添加更多内容时，可能会发生变化。这会发生吗？如果是这样的话，我如何确保我能够抓取整个网站进行处理呢？我目前只知道一些python和html用于web抓取，正在寻找其他可能影响这个问题的元素(javascript或ReactJS等)。我希望在抓取网站时得到

浏览 0提问于2019-01-02得票数 0

1回答

我正在尝试通过使用Java和Jsoup来抓取网页来收集数据。理想情况下，我需要大约8000行数据，但我想知道访问一个网站这么多次的礼仪是什么。对于每个页面，我的代码必须导航到站点的不同部分，因此我必须加载8000个(或更多)网页。在每个请求之间设置延迟，这样我就不会使网站超载，这是不是一个好主意？据我所知，他们并没有提供API。此外，我试着运行我的代码，只获取80行数据，没有任何延迟，我的互联网断了

浏览 0提问于2019-02-18得票数 0

6回答

以编程方式从其他网站获取数据的最佳方式是什么？“亚马逊提供了一个例子。”

、、

我想建立一个小的应用程序，这将去一些网站和读取这些网站的具体数据，我希望该应用程序是通用的，因为我可以让它在任何网站上我想以后工作。那么有没有一种很好的方法来使用.net解析网站？

浏览 1提问于2009-03-19得票数 2

回答已采纳

3回答

下载解析HTML数据的说明

、、、

我正在开发一个iPhone应用程序，主要登录到第三方网站，并解析特定的信息，如日期和时间等超文本标记语言数据。然而，这显然很容易打破，如果网站更新他们的HTML模板，即使是最轻微的。我需要一种简单智能的方式，让我的应用程序从我自己的服务器上下载如何解析网站的“说明”。这样，如果HTML发生变化，我可以只更新服务器上的指令，而不是向苹果发送一个全

浏览 0提问于2013-03-01得票数 0

2回答

如果我没有网站的数据库，在Android应用程序中检索其信息的替代方案是什么？

我想开发一个应用程序，以显示其网站上的特定频道的节目时间表。我没有他们的网站，但是，有没有其他技术可以从页面中检索一些特定的数据，在我的情况下，程序的名称和它的传播时间。该网站也没有RSS提要。

浏览 3提问于2012-06-15得票数 1

回答已采纳

2回答

从另一个网站获取一些价值

我正在创建一个从黄金到欧元的活跃率的网站。这是我要使用的网站：目前，我计划做的是查看该网站的来源，并搜索这一部分：<span id="lbGoldGramEurValue" class="number" style="font-weight:bold;">，然后我可以得到黄金对欧元的克汇率。这是唯一的方法，还是其他更先进、更简

浏览 1提问于2011-09-06得票数 0

回答已采纳

1回答

当url不变时，Python web抓取

、、、

我正在做一个使用python的web抓取项目。我应该抓取这个网站(https://www.fec.gov/data/receipts/?我遇到的问题是，当你浏览数据时，url永远不会改变。我不确定如何继续。根据我的经验，当抓取一个网站时，当切换页面时，url会发生变化，但这个不会改变页面，它只是浏览同一页面上的数据

浏览 28提问于2020-11-10得票数 2

1回答

从网站抓取JSON数据的问题

、、、

我试图在这个网站上搜索表中的数据：import pandas as pdimport scraper_helper d

浏览 5提问于2022-03-26得票数 1

回答已采纳

1回答

如何浏览成千上万的网页并抓取它们的技巧？

、、、

我需要从一个具有大约20,000行的html表中抓取数据。然而，该表被分成200页，每页有100行。问题是，我需要单击每一行中的一个链接来访问所需的数据。，我想知道是否有人可以这样做，因为我现在的方法(如下所示)花费的时间太长了。第一部分是航行通过希伯列特所必需的。这部分不是我关心的，因为它只需要大约20秒和发生一次。--刮擦部分--不包括在这段代码中<

浏览 2提问于2015-07-01得票数 2

6回答

如何知道被抓取的网站是否发生了变化？

、、

我正在使用PHP抓取一个网站并收集一些数据。无需使用正则表达式即可完成所有操作。我使用php的explode()方法来查找特定的HTML标记。如果网站的结构发生变化(CSS、HTML)，那么抓取器可能会收集错误的数据。所以问题是-我如何知道HTML结构是否发生了变化？如何在将任何数据存储到我的数据库之前识别这一点，以避免存储错误

浏览 1提问于2010-03-28得票数 8

回答已采纳

2回答

当从网页上抓取大量统计数据时，我应该多久将收集到的结果插入到数据库中？

、

我正在抓取一个网站(通过节流我的抓取和许可，负责任地编写脚本)，我将收集30万用户的统计数据。最好的做法是等到所有结果都在内存中(将它们全部保存在内存中

浏览 0提问于2009-09-09得票数 2

1回答

自动日志记录和web抓取

、

我有一个任务，我需要自动登录和抓取一个特定的网站。我是一名Java开发人员。任何与它密切合作的人都可以分享一些想法吗？

浏览 4提问于2012-01-06得票数 0

回答已采纳

1回答

我的所有file_get_contents都不能在我的服务器上工作。

、、

我开发了一个网站，脚本从另一个脚本获取电影的字幕，然后上传到我的网站托管服务器进行流媒体视频。当我决定开发另一种与第一种不同的方法时，它可以工作超过三个月，持续数周。因此，最后，我决定开发另一个链接，从另一个网站获取链接(似乎我喜欢这个file_get_content)，在本地机器上工作很好，但是当我把它放在服务器上时，它无法确定我想要的块(链接)，而是在经过一些测试以解决所有问题之后确定所有站点H

浏览 3提问于2017-10-22得票数 0

1回答

如何强制facebook读取元数据？

当你从一个网站上获取一个链接，然后在你的facebook状态下发布它时，它似乎是从该页面抓取了元数据。我看到的是，如果网页有一个规范的链接到另一个网站，它似乎从另一个网站抓取元数据，有没有什么办法迫使facebook从你在facebook feed上发布的链接中读取元数据？

浏览 9提问于2012-08-14得票数 0

回答已采纳

1回答

如何从网站(使用node.js)解析有关特定产品的信息？

、、、

我需要解析来自网站的信息，例如adidas.com。我对像这样的运动鞋的产品信息很感兴趣。如何获取产品的价格、图片、名称和图片等信息？console.log('In progress!')

浏览 17提问于2020-06-09得票数 1

2回答

当html中的数据点是动态的时，如何从网站中抓取和保存图表

、、、、

有没有一种方法可以使用像bs4或请求这样的python库从图表中抓取数据？关于如何下载和保存这些数据点，有什么想法吗？

浏览 1提问于2021-06-23得票数 0

回答已采纳

2回答

正在尝试从R中的url加载数据

、

所以我想从这个url加载所有格式化的数据：转换成r，这样我就可以过滤掉其中的一些。一旦我得到它，我知道如何正确地过滤它，但我不能将它“注入”到R中。如果url以".txt“或".csv”结尾，我已经看到了许多拉取数据的方法，但是如果这个url不是以文件类型结尾，那么我知道如何获取它的唯一方法就是拉出html，但是我得到...所有的html。有几种选择可以将文件下载为.csv并以这种方式注入它，但如果我做得足够好，我觉得我应该知道如何直接从<

浏览 3提问于2016-04-07得票数 0

1回答

使用Curl + Php登录到Xing

、

我正在尝试制作一个仪表板应用程序，它将从xing帐户检索信息并将其存储在我们的数据库中。现在，我们默认的oauth实现，如果用户没有登录，它会请求他的权限，然后返回到显示所有信息的网页。我们需要自动化登录过程，这样我们的php脚本每天都会运行，并将xing联系人复制到数据库中。但我们需要在不手动登录Xing的情况下实现这一点。我已经阅读/尝试了很多用于登录网站的curl&

浏览 3提问于2013-01-31得票数 1

1回答

使用令牌从网站抓取数据的问题

、、、

我是网站数据抓取的新手，所以我有一些问题需要回答。我已经寻找了一段时间的答案，但对我来说效果并不好。我正在尝试从这个网站获取新冠肺炎数据：通常，我在浏览器中使用Inspect从网站获取API URL，这很有效。但在过去的几天里，他们似乎添加了某种令牌，这仍然允许我看到网站上的数据，但不可能在没有令牌的情况下使

浏览 1提问于2021-09-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从似乎发生变化的网站中抓取数据的问题

相关·内容

从似乎发生变化的网站中抓取数据的问题

与完整的网站相比，我抓取的HTML代码似乎并不完整。HTML会动态变化吗？

从网站抓取数据的问题

以编程方式从其他网站获取数据的最佳方式是什么？“亚马逊提供了一个例子。”

下载解析HTML数据的说明

如果我没有网站的数据库，在Android应用程序中检索其信息的替代方案是什么？

从另一个网站获取一些价值

当url不变时，Python web抓取

从网站抓取JSON数据的问题

如何浏览成千上万的网页并抓取它们的技巧？

如何知道被抓取的网站是否发生了变化？

当从网页上抓取大量统计数据时，我应该多久将收集到的结果插入到数据库中？

自动日志记录和web抓取

我的所有file_get_contents都不能在我的服务器上工作。

如何强制facebook读取元数据？

如何从网站(使用node.js)解析有关特定产品的信息？

当html中的数据点是动态的时，如何从网站中抓取和保存图表

正在尝试从R中的url加载数据

使用Curl + Php登录到Xing

使用令牌从网站抓取数据的问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐