scrapy+selenium如何抓取一个不同的页面列表？

、、、

o=2等)，每个页面有X个链接(我还没有统计过它们)，当你在一个拍卖页面上(来自列表页面，所以你可以使用“下一页”按钮)，你点击“下一页”，你就遵循了链接在一般列表中的顺序。更清楚地说，如果通用列表有200k个页面，每个页面有50个链接，当你点击页面的第一个链接时，你可以点击“下一页”49次，之后“下一页”按钮是无效的，你不能转到旧的链接，你必须

浏览 11提问于2020-09-03得票数 0

回答已采纳

2回答

如何从外部网站重建图像预览？

、、、、

类似于Facebook的用户界面，我正在尝试从外部链接的网站生成预览图像。因此，当用户输入他正在链接的url时，UI将默认地扫描该站点的img并抓取预览拇指。非常感谢！

浏览 1提问于2011-01-02得票数 5

回答已采纳

1回答

从具有跨越多个页面的表格的网页中抓取信息

、、

我正在使用R中的rvest包，我想从一个只包含大约40%的总信息的表中抓取一些数据。我关注了HTML，但它没有指定当不同页面的地址没有差异时如何抓取数据。我正在尝试从获取一些工作列表数据。我已经使用以下代码成功地检索了第一页上的数据： read_html( ) data_raw <- job_pa

浏览 2提问于2018-06-20得票数 0

3回答

用不同的刮板抓取跟随链接

、

我正在用Scrapy抓取一个网页。我写了我的爬行器，它工作得很好，它抓取一个页面上的项目列表(让我们称它为主页)。在主页中，我考虑的每个项目都有一个链接，该链接指向详细项目页面(让我们这样叫它)，在那里可以找到关于每个项目的详细信息。现在我也想抓取细节页面，但蜘蛛会不同，在不同的地方会有不同

浏览 2提问于2013-09-16得票数 2

2回答

我是python和web scraping的新手。您的帮助我们将不胜感激。我在编程和练习方面是新手。我正在使用python和selenium进行web抓取。我正在试着从事实上抓取数据。目标是找到过去24小时内发布的所有工作，并刮刮外部链接，这是在工作详细信息页面上与链接文本“申请公司网站”，标题，公司，名称，位置，工作描述。我写了以下代码，但是它正确地获取了页面上的所有链接，然后当我试图打开每个链接时，它只打开了第一个链接。我怎样才

浏览 33提问于2020-07-15得票数 1

回答已采纳

1回答

单击选项列表以使用Scrapy (Python)抓取数据

、、、、

这是我试图从中抓取数据的页面的链接。单击需要抓取的选项时，有一个选项列表可更改下面的数据。我正在使用scrapy splash和but不同的解决方案，主要是splash mouse_click，但都不起作用。大多数解决方案只需单击一个按钮即可完成，但我在这里列出了一个列表。所以我不确定如何捕获列表中的选项来使用闪屏鼠标单击。这

浏览 8提问于2020-08-03得票数 0

1回答

Scrapy + Selenium -登录后如何使用搜索栏

、、、、

我目前是新的网络抓取主题。我已经成功地创造了硒刮板。现在，我也想对Scrapy做同样的事。我已经检查了这个站点(使用robots.txt)，它允许使用机器人刮。self.scrape_pages) def scrape_pages(self, response):现在，我需要找到与金融相关的课程下面是成功的Selenium代码： search=driver.find_element_by_id("autoc

浏览 4提问于2020-04-23得票数 0

1回答

"URL is unreachable“错误的Facebook评论框被缓存？

、、

我们的网站使用Facebook评论框插件。我们在我们的防火墙后面的临时站点上包含了注释框，这意味着Facebook无法访问它，并生成"URL is unreachable“错误。这一点我可以理解。但是，一旦页面发布，并且可以通过Facebook访问，仍然会显示该错误。这可以通过单击随错误提供的调试链接轻松解决，但我的内容编辑器不希望每次都这样做，而且他们有时会忘记。我想我可以省略暂存站点中的Facebook注释框，但我不希望这样做。还有其他想法吗？

浏览 0提问于2012-05-16得票数 4

回答已采纳

1回答

在缺陷趋势应用上请求现有源代码

大约一周前，我开始使用Github存储库提供的现有Rally应用程序修改/开发Rally应用程序。然而，在我的最后一项任务中，我被要求重新创建一个定制的缺陷趋势报告App，不幸的是，这个App的源代码不可用。我试图从头开始，但我遇到了许多错误，有点不知所措。我想知道是否有人有应用程序的src代码，或者知道从现有应用程序中提取src代码的方法。当然，如果有个人工作过的自定义代码也可以帮助我在这个过程中取得进展，并且不介意分享它

浏览 1提问于2015-06-12得票数 0

1回答

如何创建一个插件“记录”网络执行步骤到一个文件？

、、、

我经常被赋予创建网页抓取算法的任务，而我一直这样做的方式就是直接抓取代码，这使得每个工具页面都是特定的。我想为浏览器创建一个插件(最好是JavaScript)，这样用户就可以动态地定义抓取执行序列(记录一个脚本，该脚本稍后将被解释和执行，用于实际的抓取)。编辑可以用单个特定的字符串填充，也可以用文件中的字符串列表进行循环抓取。

浏览 3提问于2012-08-21得票数 0

1回答

google爬虫的爬行策略

、、、、

我想知道一些大型搜索引擎的重新爬网策略是如何工作的。例如，让我们考虑一下谷歌。我们知道google正在使用动态间隔来重新抓取每个网站。假设根据google dynamic interval，每10分钟就有100k个站点需要重新抓取。因此，这100000个网站的抓取过程应该在10分钟内完成。可能有两种可能的情况： 1)谷歌机器人将获取每个这些网站的第一页，然后在此页面中生成URL列表。对于每个URL，

浏览 1提问于2014-06-02得票数 0

2回答

你能从csharp程序中查询gmail中的联系信息吗？

、、、

我有一个SQL网页查询联系信息的asp.net服务器数据库。我现在已经将所有这些联系信息迁移到了gmail中。有没有什么方法我可以替换gmail mvc站点的模型部分来查询我的asp.net联系方式？有没有通过API访问它的示例代码？

浏览 0提问于2009-10-18得票数 0

回答已采纳

1回答

从多个页面中抓取表格

、

我想从网站上抓取数据。这个表扩展到多个页面上，但是url没有像page=3这样的东西，所以我不能遍历各个页面来获取数据。有没有其他方法可以像这样抓取数据，而不会在不同的页面上循环？如何从python访问不同的页面来抓取数据？

浏览 19提问于2018-03-04得票数 0

2回答

是否需要为每个目标站点编写抓取器？

、、、、

我是个刮东西的新手。我写了一个刮板它将擦伤 Maplin 商店。我使用Python语言和BeautifulSoup来抓取存储。我想问的是，如果我需要清理一些其他的eCommerce商店(比如亚马逊、Flipkart)，我是否需要定制我的代码，因为它们具有不同的HTML ( 和名字是不同的，另外还有其他东西)。所以，我写的刮板不适用于其他eCommerce商店。我想知道比价网站是如何<

浏览 40提问于2014-12-28得票数 7

回答已采纳

1回答

记录屏幕的哈彭斯(Audio+Video)

、

我是WebRTC的新生，我想要实现像视频会议、直播或者你可以使用WebRTC和NodeJS的skype这样的系统。我对一件事感到困惑，因为它是我们客户的要求之一，假设页面上发生的任何事情都可能是视频会议，一位主持人一个接一个地回答许多观众，所以应该创建一个视频，将所有这些内容连续记录在一起，并将实时流发送到服务器以保存在我们的数据库中

浏览 0提问于2014-06-04得票数 0

1回答

用BeautifulSoup和Python抓取特定的'dd‘标签

、、

我正在学习美汤，我遇到了一个十字问题。这就是在html中抓取dd标签。看看下面的图片，我想获取红色区域中的参数。问题是我不知道如何访问它们。但问题是，有时不同的页面有不同的参数，或者参数的顺序不同，所以我无法使用索引进行访问。查看链接：我怎么能确定我将总是抓取我想要的参数呢？之后，每个参数都会进入列表，因此如果某个参数现在确实存在，它应该将

浏览 11提问于2019-10-31得票数 0

回答已采纳

1回答

web爬虫如何构建URL目录以抓取所需内容

、、、

我在试着了解网络爬行是如何工作的。有三个问题：有没有用python编写的开源web爬虫？哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

1回答

Scrapy:抓取链接列表

、、、

这个问题在某种程度上是我之前提出的问题的后续问题。现在，由于我想要抓取页面上显示的项目的详细信息，我已经提取了它们各自的URL。我已经将这些URLS保存在一个列表中。为了更好地理解：这是我抓取<

浏览 0提问于2015-01-16得票数 2

1回答

无法使用Scrapy连接“str”和“NoneType”对象

、、、、

我试图从这个网站https://www.gumtree.co.za抓取信息，但我不确定如何获得该物业的网址。

浏览 25提问于2019-10-06得票数 0

1回答

使用nutch爬行的页面的后处理

、、、

我有一套网页抓取使用nutch。据我所知，这些抓取的页面是以片段的形式保存的。我想从这个页面中提取某些键值，并将其作为xml提供给solr。一个示例情况是，我爬行了一个购物网站，上面有许多产品列表。我想提取关键信息，如名称，价格，规格的产品，并忽略其余的数据。因此，我可以向solr提供一些xml，比如qwerty123qwerty，这样使用solr时，我应该能够根据价格对

浏览 0提问于2012-03-06得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从外部网站重建图像预览？

从具有跨越多个页面的表格的网页中抓取信息

用不同的刮板抓取跟随链接

我不能抓取每个链接内容的具体时间段从确实

单击选项列表以使用Scrapy (Python)抓取数据

Scrapy + Selenium -登录后如何使用搜索栏

"URL is unreachable“错误的Facebook评论框被缓存？

在缺陷趋势应用上请求现有源代码

如何创建一个插件“记录”网络执行步骤到一个文件？

google爬虫的爬行策略

你能从csharp程序中查询gmail中的联系信息吗？

从多个页面中抓取表格

是否需要为每个目标站点编写抓取器？

记录屏幕的哈彭斯(Audio+Video)

用BeautifulSoup和Python抓取特定的'dd‘标签

web爬虫如何构建URL目录以抓取所需内容

Scrapy:抓取链接列表

无法使用Scrapy连接“str”和“NoneType”对象

使用nutch爬行的页面的后处理

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐