如何抓取ajax动态网站_如何使用cheerio抓取动态网站？_如何从动态网站抓取数据 - 腾讯云开发者社区

scrapy

我正在使用抓取工具从网站上抓取内容，我需要你们的帮助如何从ajax动态加载的回应。当内容从ajax加载的同时，网址不变，保持不变，但内容会被改变，所以在这个事件上我需要抓取。谢谢你，G.kavirajan

浏览 2提问于2012-03-06得票数 0

回答已采纳

1回答

使用Nokogiri/Open URI获取动态生成的HTML

ruby、nokogiri、open-uri

我试图通过在Chrome中查看网站的HTML并使用Nokogiri抓取数据来抓取网站。问题是有些标签是动态生成的，当使用open-uri时，它们不会与open(url)请求一起出现。有没有办法“强制”一个网站动态生成它的内容，以便像open uri这样的工具读取？

浏览 5提问于2013-07-07得票数 5

1回答

如何从使用AJAX和JavaScript的网站中刮取数据？

web-scraping

如果网站使用AJAX和JavaScript加载内容，则可能很难从站点中抓取数据。数据可以动态生成并存储在JavaScript变量中，使web刮刀无法访问数据。

浏览 7提问于2022-05-11得票数 0

1回答

如何解析使用无限滚动技术显示内容的网站？

php、web-scraping、infinite-scroll

我怎么才能把所有的数据都刮掉？我正在编写一个php脚本，从一个有动态加载器的网站上抓取数据。我正在使用HTML解析器和铲子刮刮下面的网站。我是初学者，我无法识别如何解析无限滚动。 <input id="btnNextPage" type="button" class="btn btn-primary" style="width: 100%" value="Next page">

浏览 1提问于2015-07-11得票数 2

回答已采纳

2回答

Chrome扩展怎么能基本上cURL其他页面呢？

javascript、google-chrome、google-chrome-extension、browser-extension

我正在考虑写一个Chrome扩展，它需要在某个网站的某个动态页面上，抓取几个链接并分析链接页面的内容。实际上，我对编写浏览器扩展了解不多，所以我想先看看这是否可行，然后再开始学习。我确实知道扩展通常会执行Javascript，但我不知道如何使用Javascript获得这样的结果。

浏览 1提问于2012-05-27得票数 3

6回答

如何对页面导航涉及动态加载的网站进行爬行

python、web-crawler

我想抓取一个网站有多个页面，当一个页码被点击时，它是动态loaded.How的屏幕抓取吗？也就是说，当url没有作为href出现或如何爬行到其他页面？如果有人在这方面帮我的话就太好了。 PS:当点击不同的页面时，URL保持不变。

浏览 2提问于2013-01-24得票数 3

2回答

如何在python中实现动态网站(不使用selenium)

python、selenium、selenium-webdriver、web-scraping、selenium-chromedriver

Selenium有没有什么库或替代方法可以从动态(javascript渲染的)网站上抓取数据？我遇到的问题是，当我在selenium中使用webdriver时，许多网站可以很容易地检测到。我已经做了一些事情，比如在我的webdrver中更改了我的cdc_变量，但我仍然被检测到了。我一直在研究使用硒不被检测到的方法，但似乎不可能做到。因此，我正在寻找一种不使用Selenium来抓取动态网站的方法。任何建议都是有帮助的。谢谢!

浏览 2提问于2020-05-24得票数 0

1回答

当下一页的后续链接在当前页面源代码中不可用时，抓取网站的所有页面

python、web-scraping

嗨，我已经成功地通过使用Python和正则表达式抓取了一些购物网站的所有页面。但现在我遇到了麻烦，要抓取某个特定网站的所有页面，该网站的下一页后续链接不存在于当前页面中，就像这里的本网站通过Ajax调用动态加载同一页面中的下一页数据。所以在抓取的时候，我只能抓取第一页的数据。但我需要抓取该网站所有页面中的所有项目。我没有办法获得这些类型的网站的所有网页的源代码，其中下一页的后续链接在当前页面不可用。请帮我解决这个问题。

浏览 0提问于2013-05-28得票数 0

3回答

使用java进行Web爬行(Ajax/JavaScript启用页面)

java、web-crawler、crawler4j

我对这个网络爬行非常陌生。我正在使用crawler4j来抓取网站。我正在通过抓取这些网站收集所需的信息。我在这里的问题是，我无法抓取以下网站的内容。。我想从上述网站抓取以下信息(请查看附呈的截图)。如果您观察附加的屏幕截图，它有三个名称(在红色方框中突出显示)。如果单击其中一个链接，您将看到一个弹出窗口，该弹出窗口包含有关该作者的全部信息。我想爬上弹出式窗口里的信息。我正在使用下面的代码来抓取内容。 public class WebContentDownloader { private Parser parser; private PageFetcher pageFetcher

浏览 2提问于2014-06-23得票数 9

回答已采纳

2回答

Ajax站点和散列链接

jquery、ajax、hyperlink

我的网站是基于ajax的。我有一些id=content的div，它是由.get-request (从jquery)动态生成的。问题是，在内容内部有链接：<a href="site.com/#some_hash">text</a>，它应该重新加载应用于该some_hash逻辑的页面。我如何抓取点击这些链接并重新加载页面？ $('.content a').bind('click', function() { alert('Clicked!'); }); 这不是警报。

浏览 0提问于2012-11-22得票数 1

回答已采纳

1回答

用Python Selenium抓取动态网站

python、selenium、web-scraping、beautifulsoup

我试图通过BS4 python来抓取动态网站：我试过： from urllib.request import urlopen from bs4 import BeautifulSoup page = urlopen(wiki) soup = BeautifulSoup("https://www.nadlan.gov.il/?search=תל אביב יפו") 我有两个问题：网站是动态的，当我查看页面源时，我没有看到只有JavaScript脚本：的页面内容当我打开站点时，加载数据需要几秒钟时间：：如何用硒来解决这些问题呢？

浏览 1提问于2020-09-22得票数 0

回答已采纳

2回答

Node.js或

ruby、ruby-on-rails-3、node.js、web-scraping、screen-scraping

我试图做一个应用程序，需要从多个网站大量的数据抓取。我试着用Ruby来抓取网站，但是像机械化这样的宝石似乎只会刮静态页面，而不是动态内容。对于这些语言中的哪一种，或者我应该在这个项目中使用的任何一种语言，我有几个问题(我正在考虑使用Node，因为应用程序中的许多元素必须是实时的)。是否可以使用Ruby和/或Node来抓取动态内容？如果是这样的话，应该具体使用哪些工具？如果多个用户将从多个站点中抓取，您建议使用哪种语言？简单地说，节点和Rails是否有可能结合起来？提前感谢！

浏览 1提问于2013-01-24得票数 1

回答已采纳

3回答

无头铬:网站Div内容到文本，toString或ASCII

web-scraping、ascii、chromium、headless、google-chrome-headless

我想刮从一个动态加载的网站的文本，我需要动态抓取。由于动态加载，$ lynx --dump google.com等选项似乎无法工作。为此，我使用了无头铬 $ Chrome --headless --disable-gpu --no-sandbox --run-all-compositor-stages-before-draw --virtual-time-budget=1000 --window-size=1200,3000 --screenshot http://mtv.com 但我找不到一个选择，从网站上刮出的文本。例如，我可以使用所有动态抓取选项来获取特定div的文本。如何从动态加载的

浏览 1提问于2019-04-15得票数 0

回答已采纳

1回答

在点击事件之后，如何在没有任何屈服请求的情况下从splash + scrapyjs + scrapy获得html源代码？

scrapy、splash-screen、scrapyjs

我正试图改变使用selenium幻影抓取动态网站的方法。但问题是，如果我们写一个点击事件在飞溅，它将需要一个屈服要求的工作。如果我们给出一个屈服请求，它将呈现第一页。因此，我们看不到源代码中单击事件的变化。不需要重新渲染网页。硒是可能的。在splash中也有同样的功能吗？

浏览 2提问于2016-03-28得票数 1

1回答

web抓取器和收割机

web-scraping

网络抓取器或收割机是从网站获取数据的软件，如果有人能推荐市场上提供的各种软件包，我将非常感激。他们必须能够收获动态(像AJAX)建立的网站。

浏览 2提问于2011-12-08得票数 0

回答已采纳

1回答

大学课程网站的web抓取/解析

parsing、screen-scraping

正在尝试解析/抓取孟菲斯的课程站点。这个网站是"“。这似乎是某种javascript问题，或者是文本的动态生成。我可以使用livehttpdheaders/Firefox看到底层的DOM结构，但当我只是查看页面的底层源代码/文本时就看不到了。如果您有想法/评论/建议，我们将不胜感激。

浏览 0提问于2009-12-17得票数 0

1回答

使用Phonegap进行网络抓取

android、ios、cordova

我需要建立一个跨平台的应用程序(IOS + Android)，需要一些网络抓取功能。我需要它做的是登录在某些网站上，抓住相关的信息，并从这些网站的数据综合概述。那么，有没有办法在phonegap中实现web抓取呢？

浏览 0提问于2014-06-19得票数 6

4回答

抓取网站中的动态内容

python、perl、web-scraping

我需要从这个网站上抓取新闻公告，。公告似乎是动态生成的。它们不会出现在源代码中。我通常使用机械化，但我认为它不会工作。我能为此做些什么呢？我可以使用python或perl。

浏览 0提问于2011-11-30得票数 2

回答已采纳

2回答

构建一个抓取器，如果一个页面不使用jQuery怎么办？

javascript、jquery、web-scraping、screen-scraping

我正在做一个抓取器，我想抓取某些站点，但是在ID或类上使用jQuery不会返回任何东西，这意味着他们在自己的站点上没有使用jQuery。例如，我如何为CNN或Instapaper.com等不使用jQuery的网站构建我的抓取器？我尝试过$$，但我似乎找不到方法来调用它来获取孩子或div的值。任何建议都会很有帮助！

浏览 2提问于2013-04-02得票数 0

回答已采纳

1回答

使用HTML5 <input>字段抓取动态生成的网页

javascript、python、html、web、web-scraping

我想从收集数据。我想要在搜索框中输入关键字，搜索框被定义为HTML5 <input>，其中有一个eventlistener，它根据查询动态地更改页面。例如，我想要一个脚本，在搜索字段中输入术语"hello world“，然后抓取动态生成的内容，比如出现的集合的名称。由于同样的原产地策略，我不能使用JavaScript，我花了3个小时研究Python，但在那里找不到任何东西。我不知道这是否如此明显，没有人写/询问它，或者这是一个聪明的方式，不让脚本从您的网站刮。

浏览 2提问于2013-12-12得票数 1

回答已采纳

2回答

如何抓取jquery支持的网站？

php、javascript、singlepage、google-crawlers

我正在构建一个单一页面javascript驱动的网站。我拥有所有页面的所有必要数据，在我的主页上使用php作为json对象进行回显。然后，我使用为每个页面创建的自定义插件初始化页面，该插件使用相关的json数据动态构建dom，并将这些数据传递给插件，因此没有任何ajax请求。在我的网站上的链接是以下格式！#关于，#主页，等等.目前，插件的init方法在hashchange上被调用。我应该做些什么来使这些页面可以被google机器人抓取，以及如何为每个页面制作不同的标题和描述元标记？我尝试过在谷歌文档和许多其他网站上找到的各种东西。我已经将链接从#mylink更改为#!mylink，所以goo

浏览 2提问于2012-11-26得票数 0

3回答

HTML页面抓取

c#、html、ajax、screen-scraping

抓取具有AJAX/动态数据加载功能的网页的最佳方式是什么？例如:抓取一个网页，该网页加载了20张图片，但当用户向下滚动页面时，它会加载更多的图片(有点像Facebook)。在这种情况下，如何抓取所有图像，而不仅仅是前20个图像？

浏览 0提问于2012-12-06得票数 3

1回答

node-simplecrawler: ajaxed内容页面爬行问题

ajax、node.js、web-crawler

我正在使用抓取一些购物网站。我有一个很大的问题，这使得这个脚本和任何其他对我来说都没有价值。我们计划抓取一个叫digikala (www.digikala.com)的购物网站的页面.问题是主产品网格从AJAX调用加载其数据。例如这个页面：如果您看到firebug/developer-console，您将看到此类别的products网格是在AJAX post调用之后加载的。那么我该如何抓取这个产品页面呢？在获取页面之前添加一些等待(例如10秒)来解决这个问题？

浏览 2提问于2015-09-06得票数 1

1回答

我们是否可以编写一个可用于抓取多个站点的脚本

python、selenium、web-scraping、beautifulsoup

我已经为30个不同的网站写了近30个不同的抓取脚本。我的一个朋友告诉我，有可能有一个代码文件来抓取所有这30个网站，并将其带到仪表板上进行动态抓取(我不明白他的意思)。我知道每个网站都有自己的结构，不同的数据来自不同的页面和元素。另一方面，一些网站提供动态数据，而不是静态数据，我使用selenium进行抓取。我真的不知道他在想什么，有没有可能遵循这样一条路径，我只需要一个很长的脚本文件，然后用它来抓取很多网站。我将不胜感激，如果任何人有这方面的知识帮助我的想法，教程，网络内容和…

浏览 0提问于2021-01-24得票数 0

1回答

使用Scrapy抓取ajax页面

python、selenium、scrapy

我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站)，基于pipelines.Now给出的关键字，问题是当我们遇到javapages (ajax)时，抓取不能抓取。我正在尝试使用以下代码，并对抓取ajax页面进行适当的更改你们有没有用scrapy抓取javapages的好主意？第二个问题是，我面临的问题是scrapy无法抓取登录页面

浏览 2提问于2013-06-19得票数 0

回答已采纳

2回答

如何刮除未更改页url但next按钮在同一url页下添加数据的网站

python、csv、web-scraping、beautifulsoup

我有一个网址： http://www.goudengids.be/qn/business/advanced/where/Provincie%20Antwerpen/what/restaurant 在该页面上有一个“下一步结果”按钮，它加载另外20个数据点，同时仍然显示第一个数据集，而不更新URL。我编写了一个脚本来在python中抓取这个页面，但是它只抓取前22个数据点，尽管单击了"next results“按钮，显示了大约40个数据。如何刮除这些动态加载内容的网站？我的剧本是 import csv import requests from bs4 import Beautiful

浏览 5提问于2016-07-26得票数 2

1回答

PhantomJS错误: UnhandledPromiseRejectionWarning

javascript、node.js、npm、web-scraping、phantomjs

我的目标是使用从网站上抓取一些数据。我已经设法只使用request包来抓取数据，但是我想要的站点有动态内容，而request只能抓取这些动态数据。因此，我做了一些研究，发现为了实现这一点，基于，我需要通过npm安装一些软件包(我不知道是否需要这三个包)：基于这个问题，我使用了相同的代码，只是为了了解它是如何工作的： myFile.js var phantom = require('phantom'); phantom.create(function (ph) { ph.createPage(function (page) { var

浏览 2提问于2017-09-14得票数 1

回答已采纳

1回答

我可以告诉nodeJs服务器只生成动态HTML (而nginx发送静态数据)，然后自动发送到客户端吗？

javascript、node.js、amazon-web-services、express、nginx

我主要使用Apache和php，现在开始使用nginx和node。我真的很喜欢。我从一个Express服务器开始，它处理所有网站文件的发送和HTML渲染(Handlebar)。但这看起来有点慢，我看了一下基准测试，发现node似乎不是动态发送HTML的最佳选择。我知道将静态文件保存到您的nginx服务器被认为是获取用户页面请求的最快方法。我知道您可以在nginx中设置一个代理来访问您的节点服务器。但我的问题是，您能否将nginx和nodejs服务器混合在一起，以达到两全其美的效果？因此，用户从nginx请求一个页面。Nginx发回网站的所有静态文件。当它发送这些文件时，它可以告诉节点服务器

浏览 2提问于2018-05-10得票数 0

3回答

如何从加载动态的页面中刮取值？

python、html、httprequest、httpresponse

我正在努力抓取的网站主页上显示了四个标签，其中一个标签上写着“数字可用的工作”。我对刮取数字值很感兴趣。当我在Chrome中检查页面时，我可以看到包含在<span>标记中的值。但是，当我直接查看页面源时，<span>标记中没有任何内容。我计划使用Python模块来发出HTTP请求，然后使用regex从返回的内容中捕获值。如果内容不包含我需要的数字，这显然是不可能的。我的问题是：这里发生了什么事？如何将值动态加载到页面中，显示，然后不出现在HTML源中？如果这个值没有出现在页面源中，我能做什么来达到它呢？

浏览 6提问于2016-09-03得票数 0

1回答

与完整的网站相比，我抓取的HTML代码似乎并不完整。HTML会动态变化吗？

python、web-scraping

我目前正在抓取一个网站，以便能够在本地对数据进行排序，然而，当我这样做时，代码似乎不完整，我觉得在我滚动网站以添加更多内容时，可能会发生变化。这会发生吗？如果是这样的话，我如何确保我能够抓取整个网站进行处理呢？我目前只知道一些python和html用于web抓取，正在寻找其他可能影响这个问题的元素(javascript或ReactJS等)。我希望在抓取网站时得到50个名字的列表，但它只返回13个。我已经下载了整个HTML文件来浏览它，文件中似乎没有其他名字，也就是为什么我认为文件可能是动态变化的

浏览 0提问于2019-01-02得票数 0

1回答

使用Python和BeautifulSoup从滚动到底部时翻到下一页的网站上抓取数据

python、python-2.7、web-scraping、beautifulsoup

如果我需要使用Python和Beautiful从网站抓取数据，当一个页面滚动到页面底部时自动加载下一页(即无休止地扩展页面)，我该如何做？是否有一个通用的方法，或者需要为每个网站量身定做？网站示例：

浏览 1提问于2013-06-17得票数 2

回答已采纳

1回答

hibernate中的动态获取和静态获取有什么不同

hibernate、dynamic、static

我是一个新的hibernate用户。我一直在阅读这个网站提供的用户guife，他们开始谈论静态和动态抓取，而不是介绍单词。什么是静态和动态抓取？

浏览 1提问于2018-11-24得票数 0

1回答

使用简单的Html Dom通过ajax动态加载Div的内容

php、html、ajax、web-scraping、simple-html-dom

我想从其他网站页面上抓取数据，这些页面动态加载表格的数据。我正在使用Php和简单的Html Dom进行抓取，搜索后没有找到任何解决方案，如何从网页中抓取动态数据？或者有另一种方法可以做到这一点？我必须从这个url->中抓取表数据。我使用下面的代码来做这件事。 $url = "https://fantasy.premierleague.com/a/leagues/standings/313/classic"; $html = file_get_html($url); $html->find('div#ismr-classic-standings')

浏览 3提问于2016-08-23得票数 2

1回答

php爬虫，用于包含ajax内容和https的网站

php、ajax、curl、web-crawler

我试图抓取一个基于ajax和https的网站的内容，但没有运气。这有没有可能。我要抓取的网站是这样的：谢谢

浏览 0提问于2011-08-02得票数 0

回答已采纳

1回答

如何使用Python抓取特定的ASP.NET页面？

python、asp.net、web-crawler

我想抓取一个ASP.NET网站，但是urls都是一样的，我如何使用python来抓取特定的页面呢？这里是我想爬的网站： (我用的是美丽的汤，urllib和python 3) 我应该得到哪些信息来区分一个页面和另一个页面？

浏览 4提问于2015-08-16得票数 0

回答已采纳

3回答

如果在同一容器上启动了另一个jQuery ()，则停止load()

javascript、jquery、ajax

我有一个动态网站，大量的AJAX和jQuery加载在不同的模块到不同的容器。就我的问题而言，假设我有3个按钮和一个容器。单击按钮A使用a.php将jQuery加载到容器中 $('.container').load('a.php'); 现在考虑一下模块b.php是一个需要3到4秒才能加载的模块，因为它从另一个网站抓取内容并解析它。当我单击B键加载模块b.php，然后再快速单击A按钮加载模块a.php时，我的问题就出现了:模块a.php快速加载到容器中，但是模块b.php的加载仍在进行中，因此，再过一秒钟或2-3秒，模块b.php就会加载到容器中，即使用户最后一次

浏览 0提问于2018-03-07得票数 1

回答已采纳

2回答

如何在python中动态地加载电子商务站点(如paytm.com)？

python、scrapy

如何抓取一个动态加载(即下载更多的产品，当你向下滚动)电子商务网站( paytm.com，jabong.com)。提前谢谢。

浏览 7提问于2017-10-01得票数 0

回答已采纳

2回答

如何将动态(PHP)网站存档为静态HTML？

php、caching、web-scraping、render、static-html

我们正在关闭 (包括播客)。我们的计划是呈现我们网站的静态超文本标记语言版本，以便在上永久托管。从PHP动态生成的大约5000个动态页面中生成静态HTML的最简单方法是什么？我知道我们可以调整代码以缓存PHP输出，将其写入文件，然后遍历站点地图以生成每个页面。但我想知道是否有我们应该考虑的选择。有没有什么工具可以做到这一点，并按原样抓取HTML？(除了Acrobat Pro?) 不幸的是，我们也有相当数量的Ajax调用，这将使这变得更加困难。我想我们必须先取消Ajax。

浏览 0提问于2012-09-27得票数 8

回答已采纳

2回答

有没有办法在PhantomJS中申请新的Tor身份？

javascript、ajax、phantomjs、tor

我正在尝试使用PhantomJS抓取一个网站，同时使用Tor更改我的IP地址。我想知道有没有办法在Javascript中申请新的Tor身份。我见过，但不明白如何使用AJAX来完成它。

浏览 0提问于2012-11-01得票数 0

回答已采纳

1回答

如何在Laravel 5中抓取ajax站点？

php、jquery、ajax、web-crawler、laravel-5

我想抓取一个分页的ajax加载的网站。我正在使用在laravel 5中爬行。Goutte可以做到吗？我尝试了以下代码， $link = $crawler->selectLink('Next>')->link(); $crawler = $client->click($link); 但它不起作用。如何使用PHP/ Laravel 5抓取ajax站点？

浏览 0提问于2015-05-28得票数 0

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

python、web-scraping

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

2回答

如何使用Nokogiri在href中加载javascript函数

ruby、nokogiri

我想在我的ruby项目中使用Nokogiri抓取一些html页面。在爬虫页面，有一些链接，我也想抓取。但问题是链接的href在javascript函数中。 <a href="javascript:nextPage('some text','','other text')">Click here</a> 如何使用Nokogiri加载此动态页面？

浏览 3提问于2016-02-18得票数 0

1回答

如何只下载/读取文件的前80KB？

javascript、jquery、ajax、download、greasemonkey

我正在为一个网站，有许多闪光文件的Greasemonkey脚本。我想对闪存进行哈希处理，问题是闪存文件最高可达10兆字节。这很慢；我希望只能抓取要散列的第一个80KB。最终结果将是将包含有害内容的某些闪存文件列入黑名单的一种简单方法。我的脚本如何只抓取文件的前80KB(或更多)？

浏览 1提问于2012-06-16得票数 2

回答已采纳

1回答

抓取动态内容

dynamic、screen-scraping

我正在做一个网络抓取项目。有没有人有抓取动态内容的想法？基于查询字符串的动态内容类似于静态内容，但基于同一页面内控件的某些事件的动态内容是我被卡住的地方。因为在这种情况下页面url保持不变。我正在使用C#。提前感谢

浏览 2提问于2010-07-11得票数 0

1回答

由ajax jquery生成的爬网html

jquery、html、ajax

我想抓取一个网站页面，然后将一些信息保存到我的计算机上，但是一些网站内容是由ajax生成的。我的问题是，我可以抓取一个包含ajax生成内容的站点吗？

浏览 1提问于2012-02-14得票数 1

回答已采纳

0回答

使用ruby抓取动态内容

ruby、web-crawler、dynamic-content

我正在使用ruby gems (nokogiri & mechanize)来制作一个网站爬虫，但这个网站包含引导模式(弹出窗口)，它是在点击按钮时动态生成的。这个(模态的)内容在按钮点击时显示，在一些URL上使用"get“方法。我通过抓取与按钮相关的URL来获得响应，但我只是获得了相同的页面源代码。如何使用"ruby“获取动态内容的内容？

浏览 13提问于2018-07-16得票数 0

回答已采纳

2回答

用python抓取动态加载的网站

javascript、python、web-scraping、beautifulsoup、pyqt5

我刚开始抓取动态加载的网站，我被困在试图抓取这个网站的团队名称和赔率。我用PyQt5试过了，就像这篇文章里说的那样 class Page(QWebEnginePage): def __init__(self, url): self.app = QApplication(sys.argv) QWebEnginePage.__init__(self) self.html = '' self.loadFinished.connect(self._on_load_finished) self

浏览 0提问于2019-12-13得票数 0

7回答

动态更改IP地址？

web-scraping、ip、web-crawler、scrapy、dynamic-ip

考虑这样的情况，我想经常抓取网站，但我的IP地址在一天/限制后被屏蔽了。那么，如何动态更改我的IP地址或任何其他想法？

浏览 2提问于2015-03-04得票数 59

2回答

一旦你的网页加载完成，你就可以抓取它了吗？(使用PHP)

php、iframe、web-scraping

我有一个页面，它正在iframe中加载另一个页面。被调用的页面会动态地做一些事情，因为它是从我的站点调用的，所以我真的不能直接调用它，即使我可以，调用相同的页面并运行相同的动态代码两次也是低效的。所以我想要做的是，一旦我的页面加载完成，抓取自己，解析一些特定的独特的东西，然后处理解析的结果。我知道如何解析和处理解析的结果，但是我不太清楚如何进行自我抓取。有人有什么建议吗？ TiA

浏览 0提问于2010-12-25得票数 1

1回答

使用Selenium和Scrapy通过onclick抓取显示的数据

python、selenium、scrapy

我使用Scrapy用python编写了一个脚本，以便使用身份验证从网站上抓取数据。我正在抓取的页面真的很痛苦，因为主要是由javascript和AJAX请求组成的。页面的所有主体都放在允许使用submit按钮更改页面的<form>中。URL不会改变(而且是一个.aspx)。我已经成功地从第一页抓取了所需的所有数据，然后使用以下代码更改了单击此输入按钮的页面： yield FormRequest.from_response(response, formname="Form", clickdat

浏览 38提问于2019-02-21得票数 0