Selenium/BeautfulSoup中用于抓取电子商务网站的下一页迭代_如何在Python Selenium中抓取网站时转到下一页直到最后一页？_selenium尝试抓取网站上的多个页面，但在转到下一页时出错 - 腾讯云开发者社区

python、selenium、web-scraping

因此，我正在尝试使用Selenium (Python)浏览药房网站。这个网站提供了数千种药品和保健产品的目录。我试着做一个“横向”的网络抓取，提取每一个产品在目录的每一页的链接(此刻，我可以这样做)。当我试图进入目录的下一页时，问题就出现了，我没有点击按钮，URL也没有变化。网址：分页中的前面的按钮如下所示： HTML还有下一条路径：我想知道是否有人可以帮助selenium或任何其他库中的代码。谢谢!

浏览 7提问于2022-02-02得票数 0

1回答

代码先刮两次网页，然后刮下六页，因为这是为了

python、selenium、web-scraping、beautifulsoup

我正试着从8页的网上抓取足球成绩。出于某种原因，我的代码两次从第一页中抓取结果，然后继续按它应该的方式刮下接下来的6页，然后删除最后一页。这是我的密码 from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.support.ui import WebDriverWait import time import requests import numpy as np chr

浏览 0提问于2021-09-23得票数 1

回答已采纳

1回答

当Selenium由于错误无法加载链接时，如何跳转到新网站？

python-3.x、selenium、selenium-webdriver、beautifulsoup、selenium-chromedriver

我有一个大约13.000个网站的列表。从这些链接中，我打算一个接一个地通过Python、Beautiful和Selenium来抓取信息。对于大多数网站来说，抓取过程很好。但是，Selenium偶尔会遇到特定链接的问题。例如，它在加载其中一个错误消息时提供了以下错误消息： WebDriverException: Message: unknown error: net::ERR_SSL_BAD_RECORD_MAC_ALERT (Session info: chrome=90.0.4430.93) 当我找到驱动程序并手动重新加载页面时，它工作得很好。不幸的是，这个错误阻止了整个刮擦过程。当我再次

浏览 1提问于2021-04-29得票数 0

回答已采纳

2回答

使用selenium进行Web抓取，并且无法移动到下一个网页

python、selenium、beautifulsoup

所以我一直在尝试从上抓取网页，似乎selenium一直在抓取重复的数据...... 下面是我的代码： from selenium import webdriver import time driver = webdriver.Chrome() url = 'https://www.zalora.com.hk/men/clothing/shirt/?gender=men&dir=desc&sort=popularity&category_id=31&page=1&enable_visual_sort=1' driver.get(url)

浏览 0提问于2018-04-25得票数 0

1回答

如何使用selenium python自动分页？(无需手动选择next按钮)

python-3.x、selenium-webdriver、web-scraping、scrapy、python-requests

我正在抓取图像的网站列表，使用selenium webdriver+scrapy，但每个网站的下一步按钮都有不同的类/div名称，如何自动查找不同网站中的下一页进行抓取？

浏览 11提问于2020-06-20得票数 0

1回答

Scrapy修改cookie

cookies、scrapy

我可以用scrapy创建cookie，但无法修改现有的cookie。在我正在工作的电子商务网站中，这个cookie处理邮政编码，每个页面都使用这个邮政编码来修改产品属性。我可以使用selenium修改邮政编码，抓取每一页，但抓取过程太慢。我只想使用scrapy，修改这个请求/响应邮政编码cookie。我可以使用下面的代码根据我的请求创建cookie 在SETTINGS.PY中COOKIES_ENABLED = True 在spider.py yield scrapy.Request(response.urljoin(url)，self.parsePage，cookies={'cp&#

浏览 4提问于2020-10-03得票数 0

1回答

如何从具有<pre>preformatted标记部分中的所有标记的网站中抓取信息？

python、html、selenium、web-scraping、tags

我正在创建一个蟒蛇爬虫，从国际刑警组织的网站上收集信息。我成功地从第一页抓取了人名、出生日期、国籍等信息。为了从第二页抓取信息，我首先从标签中得到URL，然后用我的程序点击链接。当我转到URL时，我发现所有信息(意味着所有标记)都在< pre >标记部分中。我对为什么会这样感到困惑。因此，我的问题是，如何从标记前部分中获取信息，其中所有其他标记都在这里。我正在试图获取人的名字，生日，他们的相应链接，等等，我使用硒顺便。我会把网站的网址。以及我在标签中找到的第二页的URL。我希望这能帮助你们理解我在说什么。主网站：，我在标签中找到的第二页链接：到目前为止，针对这个问题的代码

浏览 3提问于2021-04-09得票数 2

回答已采纳

1回答

如何使用Facebook Debug批量处理我的整个网站地图？

php、facebook、facebook-graph-api

我有一个电子商务，我需要批处理我的整个产品目录(约200页)，因为我们做了一些修改的og:图像。我使用这个工具：，但是添加url并为我的网站地图的每个url点击“抓取新的抓取信息”需要很长时间。有没有更快的方法呢？谢谢

浏览 1提问于2014-12-10得票数 2

1回答

带有刮刀的Web爬行器，使用木偶和刮除器

javascript、html、reactjs、selenium、scrapy

请注意，我是一个新手，当涉及到网络技术。我必须抓取和刮相当多的网站，这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取，使用Selenium来抓取常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript/html页面的区别。等待回应。

浏览 3提问于2019-12-04得票数 0

回答已采纳

1回答

当下一页的后续链接在当前页面源代码中不可用时，抓取网站的所有页面

python、web-scraping

嗨，我已经成功地通过使用Python和正则表达式抓取了一些购物网站的所有页面。但现在我遇到了麻烦，要抓取某个特定网站的所有页面，该网站的下一页后续链接不存在于当前页面中，就像这里的本网站通过Ajax调用动态加载同一页面中的下一页数据。所以在抓取的时候，我只能抓取第一页的数据。但我需要抓取该网站所有页面中的所有项目。我没有办法获得这些类型的网站的所有网页的源代码，其中下一页的后续链接在当前页面不可用。请帮我解决这个问题。

浏览 0提问于2013-05-28得票数 0

2回答

电子商务HTML Cleaner？

java、selenium

我试图通过Selenium抓取eBay，但很难提取所需的数据。我知道有一些工具可以让你清理HTML数据，以便提取“文章”并去除杂乱。 Java中有没有什么工具可以让你从电子商务网站上提取相关数据？例如，我需要提取产品名称、描述和其他产品详细信息。

浏览 0提问于2015-09-01得票数 0

1回答

如何修复错误: Spider错误处理获取url

python、parsing、request、scrapy、web-crawler

我正在抓取电子商务网站，并抓取了多个类别，但其中一些产生的结果，但一些链接得到错误:蜘蛛错误处理…请告诉我如何排序。

浏览 0提问于2019-04-19得票数 0

1回答

使用python爬行页面

python、selenium、web-crawler

我正在制作一个爬虫，可以用于所有的电子商务网站。目前，我正在以下网站上测试我的爬虫。就个人而言，我成功地抓取了所有四个网站，但当我制作一个普通的爬虫时，我不知道如何显示更多的产品。例如：在中，我需要单击显示更多结果，以便显示更多产品。在中，我需要按load more来显示更多的产品。在中，我只需向下滚动即可获得更多产品在中，按下next按钮可以获得更多产品。每个网站都有不同的按钮类/标签，那么我如何才能确定是按下按钮还是向下滚动。最初我已经开始使用selenium，但这不是必需的，如果有比Selenium更好的其他模块，我会很乐意使用它。

浏览 1提问于2014-06-14得票数 0

2回答

使用python selenium chrome webdriver导航到javascript表的下一页

javascript、python、web-scraping、selenium-chromedriver

我的目标是遍历每个页面并将内容抓取到一个DataFrame中。到目前为止，我可以得到前20个没有问题。我似乎想不出如何使用python selenium chrome webdriver在javascript表格上导航到下一页。我已经尝试了一些解决方案(下面似乎是最接近的)，但无法复制结果。我会张贴的网站，但它是一个你需要登录凭证才能访问。提供了相关ul和li元素的页面源屏幕截图。尝试的堆栈溢出解决方案：How to click on the list of the elements in an elements with selenium in python? 我可以使用以下命令获取

浏览 18提问于2021-04-25得票数 0

2回答

我不能抓取每个链接内容的具体时间段从确实

python、selenium、selenium-webdriver、web-scraping、selenium-chromedriver

我是python和web scraping的新手。您的帮助我们将不胜感激。我在编程和练习方面是新手。我正在使用python和selenium进行web抓取。我正在试着从事实上抓取数据。目标是找到过去24小时内发布的所有工作，并刮刮外部链接，这是在工作详细信息页面上与链接文本“申请公司网站”，标题，公司，名称，位置，工作描述。我写了以下代码，但是它正确地获取了页面上的所有链接，然后当我试图打开每个链接时，它只打开了第一个链接。我怎样才能打开我一个接一个的链接。提前感谢，下面是我的代码示例： import time from selenium import webdriver from se

浏览 33提问于2020-07-15得票数 1

回答已采纳

3回答

在python中使用selenium导航分页

python、selenium、selenium-webdriver、web-scraping

我正在使用Python和Selenium抓取这个网站。我的代码工作正常，但它目前只抓取第一页，我想迭代所有的页面并抓取所有页面，但它们以一种奇怪的方式处理分页，我该如何遍历页面并逐个抓取它们？分页HTML： <div class="pagination"> <a href="/PlanningGIS/LLPG/WeeklyList/41826123,1" title="Go to first page">First</a> <a href="/PlanningGIS/LLPG/W

浏览 0提问于2018-08-08得票数 2

回答已采纳

1回答

在python中第一次抓取后如何转到第二页？

python、selenium、beautifulsoup

我正在尝试从全球速卖通获取产品详细信息。我有两个问题。首先，我如何抓取类别并将其保存在每个产品前面的csv文件中；第二，如何移动到第2页和其他页面，直到没有更多的页面可用或直到第10页。这是我为查找下一页而编写的代码 from bs4 import BeautifulSoup import requests as r page = r.get('https://www.aliexpress.com/category/200000664/jackets.html?spm=2114.11010108.102.4.650c649b8lfPOb') soup = Beautiful

浏览 1提问于2019-02-10得票数 3

1回答

如何在Python Selenuim中将日语响应页面翻译成英语

python-3.x、selenium、xpath

如何在Python Selenium中将日语响应页翻译成英文。由于我需要抓取一个日语网站，我甚至不能从该网站提取一个文本，因为所有的都是日语。

浏览 12提问于2017-02-21得票数 1

2回答

当我切换到不同的选项卡时，Selenium抓取停止

python、selenium、web-scraping

我必须刮从印度电子商务网站的产品细节。在显示前20个项目之后，我们需要向下滚动以获得下一组项目。我在python中使用了selenium，它会打开一个选项卡来抓取站点。但当我从这个选项卡切换到另一个选项卡或窗口时，滚动立即停止，无法进一步抓取。这部分代码可以为我滚动。 arrow = browser.find_element_by_xpath('//div[@id="see-more-products" and @class="show-more btn"]') arrow.click() 有没有办法在不激活该选项卡的情况下继续抓取？

浏览 14提问于2020-09-09得票数 0

1回答

Selenium和BeautifulSoup -尝试从第1页抓取内容，然后转到第2页，依此类推

python、selenium、beautifulsoup、chrome-web-driver

我很难理解如何抓取我想要的所有页面内容。我可以从第一页获取我想要的信息，但获得下15页是一个挑战。我正在使用selenium和chrome webdriver从这个网站获取信息。

浏览 3提问于2020-02-17得票数 0

1回答

如何使用Selenium获得所有域的cookie？

php、laravel、selenium、selenium-webdriver、cookies

我在用Selenium和Laravel做自动测试。不错，但饼干有问题。我必须登录每次我运行我的自动测试网站抓取。我想维护我的登录信息，所以我使用Selenium中的代码来存储网站的cookie信息。 $driver->manage()->getCookies(); 但是，在多个域中有许多cookie，但是只存储来自特定域的cookie。当前连接页我不知道如何存储cookie列表中所有域的cookie。

浏览 9提问于2019-07-13得票数 1

1回答

无法使用selenium-scrapy分页，只能提取第一页的数据。

selenium、selenium-webdriver、web-scraping、pagination、scrapy

我正在为最近的客户评级刮一个网站，有几个页面。问题是，我能够与"sortby“选项交互，并使用Selenium选择”最近“，并使用Scrapy为第一页抓取数据。但是，我无法提取其他页面的数据，Selenium Web驱动程序不知何故不呈现下一页。我的意思是自动抓取数据。我是一个网络刮刮的新手。代码片段附在这里(一些信息由于机密性而被删除) import scrapy import selenium.webdriver as webdriver from selenium.webdriver.edge.service import Service from selenium.webd

浏览 8提问于2022-09-17得票数 0

1回答

我需要帮助将列表存储为表格和迭代抓取页面

python、selenium、web-scraping

因此，我设法抓取这个电子商务网站，我有for-loop的产品名称和产品价格。我的第一个问题是如何将这两个表合并在一个表中。第二个问题是如何在网站的不同页面或多个urls中迭代这些内容。对于这个愚蠢的问题，我很抱歉，但我只是开始使用python，因为我想把它作为一个更好的抓取工具来使用，而R是我更擅长的。感谢您的回复。 import selenium driver.get("https://shopee.ph/shop/301669184/search?page=5&sortBy=pop") productname = driver.find_elements_by_cl

浏览 10提问于2021-03-05得票数 0

回答已采纳

1回答

在R for循环中延迟抓取几分钟

r、xml、sleep、rcurl

我正在尝试抓取一个网站，它不允许我抓取超过9页，有没有办法在9页后停止循环，中断一到两分钟，然后重新开始抓取？代码如下： library(RCurl) library(stringr) library(XML) jt<- c() for (i in 1:70){ tryCatch({ html<- getURL((url[[i]]), followlocation = TRUE) doc = htmlParse(html, asText=TRUE) new <- xpathSApply(doc, "div/a"

浏览 11提问于2020-10-05得票数 0

回答已采纳

2回答

如何使用硒和美汤点击元素？

python、selenium、selenium-webdriver、web-scraping、beautifulsoup

如何在python中使用selenium和漂亮的汤点击一个元素？我得到了这些代码，我发现它很难实现。我想在每次迭代中单击每个元素。没有分页或下一页。只有大约10个元素，在单击最后一个元素后，它应该会停止。有人知道我该怎么做吗。以下是我的代码 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait import urllib import urllib.request from bs4

浏览 2提问于2019-11-13得票数 0

1回答

如何使用BeautifulSoup转到下一页？

python、web-scraping、beautifulsoup

我试图从的所有37个网页中抓取数据。我要删除的网站不允许通过搜索栏进入下一页。这是为next按钮编写的HTML。 <a href="javascript:void('Next')" class="next"> <svg viewBox="0 0 36 36" data-use="/cms/svg/site/icon_caret_right.36.svg"> (path tag and data) </svg> </a> 我知道这可以

浏览 4提问于2022-03-22得票数 0

回答已采纳

1回答

Selenium/BeautfulSoup中用于抓取电子商务网站的下一页迭代

python、selenium、selenium-webdriver、beautifulsoup

我正在抓取一个电子商务网站，Lazada使用Selenium和bs4，我设法抓取了第一页，但我无法迭代到下一页。我想要实现的是根据我选择的类别来抓取整个页面。下面是我尝试过的： # Run the argument with incognito option = webdriver.ChromeOptions() option.add_argument(' — incognito') driver = webdriver.Chrome(executable_path='chromedriver', chrome_options=option) dri

浏览 24提问于2020-09-29得票数 0

2回答

在scrapy中使用自定义方法时无法找到正确的方法

python、python-3.x、selenium、web-scraping、scrapy

我试图从不同的文章的标题，从他们的内部网页使用刮除结合硒，虽然这个网站的内容是静态的。脚本从登陆页面抓取不同帖子的链接，并重用新解析的链接从其内部页面获取标题。我知道有一个，它用于在scrapy中使用selenium。但是，我不想在这个基本用例中使用这个库。下面的蜘蛛中有两种方法。我可以坚持使用一种方法来完成整个工作，但是我在这里使用了两种方法来理解如何将链接从一个方法传递到另一个方法，以便在后一种方法中完成其余的事情，而不发出任何请求，就像在scrapy.Request()中一样。脚本似乎工作正常。如果我从这里踢出yield，yield self.parse_from_innerpag

浏览 2提问于2020-12-25得票数 1

回答已采纳

1回答

用Java开发自动web爬虫

web-crawler

你好，我想抓取多个电子商务网站，并获得所有可用的产品被抓取和显示在我的网站。我已经使用Java开发了爬虫，但在这方面，我们必须通过提供URL和HTML标记来手动抓取网站，并通过连接URL和解析URL来抓取站点，并在相应的HTML标记中获取产品。在这个例子中，我使用JSoup (“doc.getElementsByTagName”)；在名为“爬行”的标签中获取产品但我想让爬行完全自动化。如果我在我的网站上搜索一个产品，那么相应的产品应该自动从电子商务网站上爬行。如果我想爬行佳能相机，爬虫应该自动完成。有可能使爬虫自动化吗？如果是，请帮助我做这件事。

浏览 1提问于2014-01-20得票数 1

1回答

可以在web应用程序中使用Selenium吗？

selenium

我正在建立一个在Django的网站，将从一些网站抓取数据，这样人们就可以进入该网站，设置自定义数据过滤器，并查看抓取的数据在友好的格式。问题是requests和beautiful soup模块不足以满足抓取目的，因为我还需要一些自动化操作(加载javascript或单击按钮)。由于Selenium要求下载webdriver并将其放入路径中，是否可以在web应用程序中使用它？比如在某个地方托管webdriver？我也对Selenium以外的解决方案持开放态度，如果有的话。

浏览 3提问于2018-07-01得票数 1

1回答

直接邮政电子商务站点(SAQ )的PCI范围

audit、pci-scope、e-commerce

电子商务网站使用的是Direct方法(见第14页PCI电子商务安全)。它驻留在PCI范围内的电子商务应用程序和网络的服务器是否？SAQ中有一些似乎适用于服务器和网络的问题.

浏览 0提问于2021-01-05得票数 2

1回答

当我尝试用selenium抓取每日HTML表时，只获取最后一页

python、html、selenium、beautifulsoup

我正试图为我的项目收集数据。这是我第一次尝试做网络抓取。这是价格的数据，在网站上。问题是，从2020年开始，我一直需要它，这意味着我需要在网站上选择一个日期，然后我才会看到一张桌子。我需要所有这些桌子。最重要的是，如果我更改日期，页面地址就不会改变我试着用硅，但不知怎么还是只能得到最后一页的数据。你能建议我怎么纠正它吗。我就是这么做的： #Make preporations from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver

浏览 21提问于2022-04-11得票数 -1

回答已采纳

1回答

如何同时循环访问多个页面和打开链接

python、selenium、selenium-webdriver

我目前正在尝试找出如何在健身课程网站上的一组工作室中循环。在这个网站的搜索结果页面上，每个页面列出了50个工作室，大约有26个页面。如果您想看一下，请使用https://classpass.com/search。我的代码解析搜索结果页面，selenium获取页面上每个工作室的链接(在我的完整代码中，selenium打开链接并抓取页面上的数据)。在循环第1页上的所有结果后，我想单击next page按钮并在results第2页上重复。我得到错误Message: no such element: Unable to locate element:，但我知道元素肯定在结果页上，可以单击。我用

浏览 48提问于2020-06-23得票数 0

1回答

对同一拓扑中的每个域应用不同的解析筛选器

apache-storm、stormcrawler

我试图抓取不同的网站(电子商务网站)，并从每个网站的网页(即产品价格，数量，出版日期等)的具体信息。我的问题是:如何配置解析，因为每个网站有一个不同的HTML布局，这意味着我需要不同的Xpath对同一项目取决于网站？我们可以在每个网站的拓扑中添加多个解析器吗？如果是，我们如何为每个解析器螺栓分配不同的parsefilters.json文件？

浏览 5提问于2021-04-27得票数 0

回答已采纳

2回答

如何在不重复代码的情况下用空格填充异常字段？

python、selenium、exception

我正在运行一个从网站抓取某些数据字段的网络抓取程序，但是我不能保证所有字段都会出现在一个给定的页面上。如果字段不存在，则应为空。就目前而言，我的代码如下所示 try: field1 = scrape_data_field1(field1) except NotOnPageError: field1 = "" try: field2 = scrape_data_field2(field2) except NotOnPageError: field2 = "" try: field3= scrape_data_field

浏览 23提问于2020-09-22得票数 1

回答已采纳

2回答

Webdriver没有导航到下一页

python、selenium、selenium-webdriver、webdriver、selenium-chromedriver

我正在编写一个python脚本，使用Chromedriver和Selenium从一个网站上抓取数据。问题是，在从一个页面中抓取数据之后，当程序导航到下一个页面(通过.click()函数)时，程序有时会继续从前一个页面抓取数据。以下是有关守则： driver = webdriver.Chrome('chromedriver.exe') driver.get('https://www.testwebsite.com') y = 0 while (y < 10): tempname = driver.find_element_by_xpath(&#

浏览 4提问于2020-12-21得票数 1

3回答

python selenium:如何导航到网页中的某些页面选项卡

python、selenium

我正在为一个在一个网页中有多个页面的网站做网页抓取。但当我点击第2页时，url显示为。我把这个url作为下一个导航位置。它直接转到，这是默认页面。我不知道如何导航到这些子页面。有什么建议或代码吗？现在是我的代码： from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Firefox() driver.get('http://www.worldhospitaldirectory.com/Germany/hospitals') url

浏览 0提问于2017-02-06得票数 2

回答已采纳

2回答

我想通过属性来标识特定的urls，但是如果感兴趣的属性是外文字符呢？

xpath、encoding、scrapy

我想使用Scrapy来递归地刮取数据--在下一个页面之后从一个页面中抓取数据。我的蜘蛛需要遵循“下一页”按钮。原则上，response.xpath("a[@title = 'next page']")可以识别“下一页”urls。然而，由于网站是中文()，我使用的选择器命令是response.xpath("a[@title = '下一页']")。下一页的意思是“下一页”这是行不通的，错误消息是"ValueError:所有字符串必须与XML兼容: Unicode或ASCII，没有空字节或控制字符“。该网站的编码为gbk。那么，

浏览 7提问于2015-10-18得票数 0

回答已采纳

2回答

scrapy -如果关注无限网站，则终止爬行

python、web-scraping、scrapy、scrapy-spider

假设我有一个像这样的网页。 counter.php if(isset($_GET['count'])){ $count = intval($_GET['count']); $previous = $count - 1; $next = $count + 1; ?> <a href="?count=<?php echo $previous;?>">< Previous</a> Current: <?php echo $count;?>

浏览 9提问于2018-10-29得票数 3

4回答

使用Scrapy进行Python数据抓取

python、python-2.7、web-scraping、scrapy

我想从一个网站上有TextFields，按钮等抓取数据。我的要求是填写文本字段并提交表单以获得结果，然后从结果页面中抓取数据点。我想知道Scrapy是否有这个功能，或者是否有人可以推荐一个Python库来完成这个任务？ (编辑) 我想从下面的网站上抓取数据：我的要求是从ComboBoxes中选择值并单击search按钮，然后从结果页面中抓取数据点。附注:我正在使用selenium Firefox驱动程序从其他网站抓取数据，但这个解决方案并不好，因为selenium Firefox驱动程序依赖于Firefox的EXE，即在运行刮板之前必须安装Firefox。火狐有时会在执行刮板的过程

浏览 1提问于2013-05-28得票数 8

回答已采纳

1回答

如何点击“下一步”，用Selenium抓取所有页面？

python、selenium-webdriver

我有以下代码来抓取一个网站： from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.common.exceptions import TimeoutException from selenium import webdriver from functools import reduce de

浏览 80提问于2020-06-05得票数 0

1回答

空调度程序，在scrapy中使用URL填充调度程序

python、scrapy

问题是，我正在使用代理刮一个网站，所以网站将关闭一些我需要的信息，当我向网站请求后，一些计数。所以我要做的是，在没有登录+代理的情况下，尽可能多地抓取，但是经过一些抓取之后，我才知道这个站点不允许数据。所以现在我必须登录！(现在登录+代理)，所以在登录后我继续刮。现在的问题是，队列(Scheduler)中已经有一些URL没有登录就会被抓取(所以我想用登录获取那个URL，这样我就可以成功地抓取数据)。所以，，我想要空调度程序，它包括不需要登录的url .。在这里，我已经做过的事情。 1。我登录(成功)。 2。启用缓存 3并将优先级1设置为登录URl 关于我的可能的解决方案. 1。重新加载所有排

浏览 1提问于2020-01-16得票数 0

2回答

如何使用Selenium抓取多个页面(Python)

python-3.x、selenium-webdriver、web-scraping、beautifulsoup

我已经看到了几种从一个网站抓取多个页面的解决方案，但都不能在我的代码上运行。目前，我有这段代码，它正在抓取第一页。我想创建一个循环来抓取网站的所有页面(从第1页到第5页) import pandas as pd from selenium import webdriver from selenium.webdriver.chrome.options import Options from bs4 import BeautifulSoup options = Options() options.add_argument("window-size=1400,600") fr

浏览 34提问于2019-05-17得票数 3

回答已采纳

1回答

Selenium:在for循环中使用错误的元素

c#、selenium

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms; using OpenQA.Selenium; using OpenQA.Selenium.Support; using OpenQA.Selenium.Chrome; us

浏览 2提问于2017-02-22得票数 2

1回答

用Python和Selenium从标记中获取文本

python、selenium、selenium-webdriver、web-scraping、xpath

我一直试图用Python和Selenium抓取一个网页，结果遇到了这个问题。基本上，我正在抓取的网页在带有分页的表中显示信息，所以我想从所有页面中获取信息。当我在一个不是最后一页的页面(本例中为第2页)时，这是分页系统的HTML： <span class="pagelinks"> " [" <a href="?page=1">First</a> "/" <a href="?page=2">Previous</a> "]

浏览 4提问于2022-11-10得票数 1

回答已采纳

1回答

抓取表格最后一页的问题

python、selenium、selenium-webdriver、html-table

我目前正在尝试抓取一个有16页的内部网站的表格。当我运行下面的代码时，最后一页上的表没有被抓取，并且我得到了以下错误： Traceback (most recent call last): File "C:/Users/mb4ig/PycharmProjects/Python/Test.py", line 56, in <module> WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.LINK_TEXT, 'Next'))).click() File &#

浏览 15提问于2020-01-16得票数 1

回答已采纳

1回答

刮取多个页面的动态DataTable但相同的URL

python、selenium、beautifulsoup、datatables、screen-scraping

我有使用C的经验，我开始接触Python，主要是为了好玩。我想在这里刮一下这个页面，。由于具有我感兴趣的内容的表是在连接到页面后动态创建的，所以我使用：在browserBeautiful 4中加载页面，以抓取加载的数据目前，我能够抓取前25个条目中所有感兴趣的字段，这些条目一旦连接到页面就会加载。我可以在一页中有多达100个条目，但总共有1045个条目，它们在不同的页面中被分割。问题是，对于所有页面，url都是相同的，并且表的内容在运行时被动态加载。我想要做的是找到一种方法，能够抓取所有的条目，也就是1045。通过互联网阅读，我知道我应该发送一个正确的帖子请求(我还发现他们从我的代码中检索

浏览 3提问于2020-11-12得票数 1

回答已采纳

1回答

使用漂亮汤和webdriver抓取下一页的问题

python、selenium、beautifulsoup、webdriver、web-crawler

我试图通过使用和Selenium来抓取来自BeautifulSoup的所有作业链接。问题是，我只能抓取第一页的链接，而不知道如何从下一页抓取链接。这是我尝试过的代码： from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.support import expected_conditions as EC import time import requests from bs4 import BeautifulSoup impor

浏览 0提问于2021-01-24得票数 0

回答已采纳

1回答

如何在Python中抓取具有动态ID的文本变量

python、selenium、selenium-webdriver

目前，我正试图在整个网页中获取一些文本数据。一开始，我抓取所有的网页，然后慢慢地在网页中筛选，从每一页抓取我需要的数据。例如，由于动态ID的原因，我在抓取诸如平方英尺或邻居之类的项目时遇到了困难。我通过XPath或CSS选择器看到的许多例子都涉及到搜索文本，但在我试图抓取的每一页上都会发生变化。有什么办法能捕捉到这片土地或社区吗？ from bs4 import BeautifulSoup from selenium import webdriver as wd from selenium.common.exceptions import StaleElementReferenceExcep

浏览 3提问于2019-02-05得票数 0

1回答

如何在silenium中获取下一页？

python、selenium、selenium-webdriver

我正在python中处理selenium，我想要抓取所有页面，但我遇到了麻烦:以下是我想要单击的元素： ? 我正在使用下面的代码： link=driver.find_element_by_link_text ('2') link.click() 但它会点击另一个元素 Deos有没有其他方法来获取下一页？

浏览 22提问于2021-03-25得票数 0