在不使用Selenium的情况下抓取站点数据_在不阻止selenium的情况下抓取web_在java中使用selenium的抓取表 - 腾讯云开发者社区

、

我正在使用Selenium自动化一个网站。首先，我用C#打开主网站。然后，我手动单击以从主站点打开新窗口。现在，我想要抓取这些新窗口的数据。这不是问题。问题在于，Selenium似乎需要一个窗口来聚焦来刮掉它。在抓取之前，我目前使用SwitchTo方法。当您切换时，新窗口会弹出到前面，并从其他窗口窃取焦点。有没有一种方法可以在不聚焦的情况下抓取窗口？

浏览 0提问于2017-12-04得票数 1

1回答

站点可以通过另一个站点上的Iframes检测僵尸吗？

、、

我正在使用python和selenium来抓取数据。持有数据的站点具有非常强大的bot检测机制，因此很难直接抓取它。但是，数据可以通过聚合站点获得(类似于保险之类的比较站点)。数据位于链接回目标站点的iframe中。目标站点可以通过iframe实现它的bot检测措施吗？

浏览 10提问于2021-10-21得票数 0

2回答

我开发了一个web应用程序，它使用RangeNode.js/Express.js和MySQL开发。我的应用程序有一些页面，在从另一个web应用程序example: https://www.example.com获取数据后显示数据。由于另一个应用程序没有从哪里获取数据的API，所以在Python的帮助下，我使用了web 抓取，而则从站点中抓取数据。我用Node.js调用我的Python程序。我想问的是，这是一个机器人之间的连接，它发送请求到目标站点是否安全？selenium自动浏览器是否向站点发送加密连接？或者，我是否必须连接到代理来保护我的连接。我不想泄露我服务器的IP。任何帮助都将不胜感

浏览 4提问于2021-05-31得票数 1

回答已采纳

1回答

在python gae上运行selenium？

、、

我有一个flask应用程序，它的端点使用selenium和铬驱动程序。我使用此代码来抓取angular网站的网页，创建一个json并将其提供给客户端。早些时候，这个站点很容易被BeautifulSoup抓取，我用来将json和put operation.This的当前时间一起存储在数据存储中，这样我就不会在每次客户端请求时都抓取网站，并且有一个函数可以确保在再次抓取网站之前5个小时都是好的。但现在我不得不使用selenium，我无法想象selenium如何在服务器上打开浏览器(因为它需要在我的本地机器上做任何事情).I也研究了chrome的无头状态，但目前它只适用于node.js服务器。

浏览 0提问于2018-12-26得票数 0

3回答

selenium中没有这样的元素例外，但元素在那里存在

、、、、

我试图从一个站点抓取一些数据，我正在使用selenium，但是当我试图单击或从站点中的元素中获取数据时，我会得到NoSuchElementException，即使其中的元素存在。代码 from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.common.by import By driver = webdriver.Chrome(ChromeDriverManager().instal

浏览 7提问于2021-11-24得票数 1

回答已采纳

1回答

在Python中执行Js的Selenium的替代方案是什么？

、、、

我想在Python中执行JavaScript的函数，在此之前，我使用Selenium，但是Selenium对于大站点的抓取来说太慢了。我想知道selenium在Scrapy中执行js的最佳替代方案是什么？

浏览 2提问于2016-12-26得票数 4

回答已采纳

2回答

用Python解析CSS属性值的HTML

、、、、

我目前正在使用Selenium和PhantomJS与Python一起抓取呈现的网页。很容易检查HTML内容中是否存在某个单词(例如。)，但是我有兴趣在页面中搜索包含值大于或等于某个值的if "example" in html属性的元素。例如，最理想的做法是抓取一个站点列表，并保存具有CSS为元素提供z索引的页面，这个值异常大。所有内容都是构建的，除了呈现的页面的CSS爬行功能。有人对此有什么建议吗？

浏览 8提问于2015-01-06得票数 0

回答已采纳

1回答

Scrapy和硒:让scrapy等待硒？

、、、

我有一个蜘蛛，我用它来抓取一个网站。我只需要为我的项目的一部分javascript。所以我用scrapy抓取了站点的一部分，然后在selenium中打开URL。当URL打开时，scrapy仍在继续。如何让scrapy等待我的selenium逻辑完成？提前谢谢。

浏览 0提问于2016-12-16得票数 0

1回答

抓取文本呈现到svg图形(以阻止刮刀)-如何？

、、、、

因此，这一次，我在我的抓取逃避，我遇到了一个新的敌人-一个网站，通过“转换”的价格数据，每个人都想刮成SVG图像来破坏刮刀。一个简单的问题-什么是“首选”工具或方法刮这样的网站连续？我想过用Selenium下载整个页面的屏幕截图(因为该站点也有cloudflare刮伤检测)，并使用tesseract对其进行OCR‘，但仅下载一页就需要大约7秒(而且我有180个页面需要抓取)，所以虽然这并不完全不可行，但可以这么说，这是低于预期的。我的问题是，我应该考虑的一般方法、技术或工具是什么？有没有一种方法可以让SVG直接出现在网站上，而不需要下载或者制作截图呢？或者我该看什么？作为参考，我试图刮的是

浏览 3提问于2022-04-12得票数 1

2回答

如何在提供angular JavaScript数据的页面上执行Scrapy和Selenium？

、、

我正在做一个类似于这个->的刮刀访问站点A -->单击立即购买按钮-->登陆亚马逊-->抓取数据-->返回站点A 问题是网站是在AnugularJS上创建的。我无法使用selenium.click()单击该按钮我正在使用selenium和scrapy来抓取这个javascript页面。该页面是无限加载的页面，请建议一个解决方案，这是无限加载的页面。下面是Div元素- <a class="external" href="http://www.amazon.com/dp/B01DBR53FU/?tag=097-20&

浏览 38提问于2018-06-03得票数 0

回答已采纳

1回答

如何查找头部数据和名称？(Python-请求)

、

我想在登录站点上使用请求来进行web抓取。我已经使用selenium编写了代码，但这样做非常不方便，而且速度也很慢，因为我想公开它(每个用户都必须下载chrome驱动程序)。问题是，该站点有多个请求，而我没有任何处理这些数据和提取标题数据和名称的经验。任何帮助都很好，谢谢。

浏览 0提问于2018-09-09得票数 2

回答已采纳

1回答

需要Selenium返回给定HTML的类标题内容

、

使用Selenium执行一些some抓取。让它登录到一个站点，在该站点中，一次返回一个包含五个值的HTML数据表。我将让Selenium从表中抓取特定的数据，写入到一个文件中，单击next，然后重复下面的五个步骤。新的自动化脚本。我有无数的get_attribute、find_elements_by_class_name等变体。例如： pnum = prtnames.get_attribute("title") for x in prtnames: print('pnum') 下面是其中一个返回值的HTML： <div class="t

浏览 16提问于2019-06-21得票数 0

回答已采纳

1回答

来自非Selenium浏览器的Cookies\Sessions\Site信息是否会污染到Selenium浏览器？

、、

我喜欢用普通的非selenium Firefox浏览器访问https://example.com。因为我经常访问这个站点，所以我的非selenium Firefox浏览器有cookie、站点和会话信息，甚至还有浏览历史记录。我的selenium脚本包含以下内容，它转到https://example.com from selenium import webdriver browser = webdriver.Firefox() browser.get('https://example.com') 来自非selenium Firefox浏览会话的信息会被上面脚本执行的seleni

浏览 13提问于2020-07-21得票数 0

回答已采纳

1回答

将Selenium/Webdriver/HtmlUnit限制到某个域

、、

在使用selenium/webdriver进行web抓取时，我意识到目标站点正在运行google分析脚本。有没有办法限制selenium/webdriver/htmlunit来避免某些urls/域？谢谢,

浏览 2提问于2011-06-24得票数 6

4回答

使用Scrapy进行Python数据抓取

、、、

我想从一个网站上有TextFields，按钮等抓取数据。我的要求是填写文本字段并提交表单以获得结果，然后从结果页面中抓取数据点。我想知道Scrapy是否有这个功能，或者是否有人可以推荐一个Python库来完成这个任务？ (编辑) 我想从下面的网站上抓取数据：我的要求是从ComboBoxes中选择值并单击search按钮，然后从结果页面中抓取数据点。附注:我正在使用selenium Firefox驱动程序从其他网站抓取数据，但这个解决方案并不好，因为selenium Firefox驱动程序依赖于Firefox的EXE，即在运行刮板之前必须安装Firefox。火狐有时会在执行刮板的过程

浏览 1提问于2013-05-28得票数 8

回答已采纳

2回答

当我使用正确的CSS选择器时，我的网络爬行器返回一个空列表。

、、、、

我正在尝试通过使用selenium或scrapy从这个特定的url中抓取一些数据。我已经没有问题地抓取了其他页面，但是当涉及到这些特定的urls时，im试图抓取到列表中的信息返回为空。我使用了scrapy，然后转到使用selenium，但结果是相同的。我还使用了pycharm和chromedriver。我特别寻找的信息是'‘上所有不同的手机型号。我打印这个列表只是为了发现没有从站点上抓取任何东西，或者更确切地说，抓取是成功的，但没有返回任何东西。当我试图从这里抓取任何东西时，也会发生同样的情况： from selenium import webdriver #open chr

浏览 0提问于2019-05-30得票数 0

1回答

如何使用gocolly twocaptcha和selenium绕过re-captcha

、、、

在几次请求之后，我的抓取代码被目标站点使用re-captcha阻止。我使用https://github.com/gocolly/twocaptcha使用selenium chrome驱动程序绕过验证码。使用selenium chrome驱动程序时，它可以正常工作，但当我运行我的抓取再次编写代码，但它仍然被阻塞。我的问题是：当使用selenium chrome驱动绕过re-captcha时，为什么我的代码仍然阻塞？如何绕过这个re-captcha块？

浏览 69提问于2020-08-13得票数 0

回答已采纳

2回答

Selenium中的"Current_url“函数显示错误的地址

、、

我正在尝试在Selenium模块(Python)的帮助下抓取一个站点https://www.mdoffice.com.ua/。这个站点需要输入登录信息和密码，这就是为什么我只能使用Selenium进行抓取。下载主页后，从这个页面移动到下一个链接，我试图看到这个页面的当前网址，但程序显示了一个主页的网址，我不能从这个页面刮任何信息(刮刮只可能的主页)。这种情况只有在这个网站上，在其他网站上，一切都没问题。下面是代码示例。如何解决这个问题？谢谢! 示例1 ''' from selenium import webdriver import time browser = w

浏览 129提问于2021-07-01得票数 0

2回答

Python -如何在URL中不分页地刮分页

、

下面是示例页面：它有40个结果。如何使用URL访问下一页，内容如下： * 我知道如何使用刮取库(BS4、Selenium)，但我不知道如何抓取这样的站点。我一直在玩谷歌Chrome开发工具，但没有成功。我知道pubmed有API，但是API不返回我需要的信息(天气文章是否可以免费下载)。像Python这样的抓取站点通常的工作流程是什么？

浏览 0提问于2019-07-05得票数 0

回答已采纳

1回答

带有刮刀的Web爬行器，使用木偶和刮除器

、、、、

请注意，我是一个新手，当涉及到网络技术。我必须抓取和刮相当多的网站，这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取，使用Selenium来抓取常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript/html页面的区别。等待回应。

浏览 3提问于2019-12-04得票数 0

回答已采纳

1回答

手动启动浏览器会话，并将会话控制权交给selenium进行自动化和处理？

、、、、

是否可以将用户打开的浏览器的控制权传递给selenium webdriver？例如，假设我正在浏览一个站点(手动)，并且喜欢一个特定的页面www.facebook.com，我决定抓取它。我怎样才能把这个页面的控制权交给我的chrome web驱动程序，让selenium做我需要的任何抓取工作呢？我不介意换个浏览器，我用的是Mac。我能够弄清楚如何从web驱动程序启动浏览器会话，然后使用会话id和执行器url稍后使用另一个web驱动程序获取它，但是，我需要用户能够启动会话。如何才能做到这一点？谢谢 PS:我知道我可以使用.get(url)或.gotourl(url)方法让selenium转到

浏览 1提问于2018-04-23得票数 0

2回答

如何从inc5000中刮取公司名称？

、、、

我正试着从inc5000站点(“”)中抓取所有的公司名称。问题是公司名称是用JavaScript显示的。我尝试过使用selenium和requests_html来呈现站点，但是当我获取页面的源代码时，我得到了JavaScript。这就是我尝试过的。我对网络抓取很陌生，所以我可能犯了一些愚蠢的错误。请指导。这是我的密码。 ... from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.chrome.options import

浏览 2提问于2022-07-05得票数 0

回答已采纳

2回答

无法使用Python刮取幻想表

、、、

我正试图从以下站点中抓取梦幻玩家的数据：。该表在打开网站时出现，但当我刮掉该站点时，它是不可见的。我尝试了以下几点： import requests as rq from bs4 import BeautifulSoup fplStatsPage = rq.get('http://www.fplstatistics.co.uk') fplStatsPageSoup = BeautifulSoup(fplStatsPage.text, 'html.parser') fplStatsPageSoup 那张桌子不见了。取而代之的是： <div>

浏览 0提问于2019-12-16得票数 0

回答已采纳

2回答

Selenium无法在加载速度较慢的页面上找到特定元素

、、、

我正在尝试抓取篮球参考网站，但遇到了一个我似乎无法解决的问题。我正在尝试获取每一场比赛的框得分元素。这是我可以用urlopen很容易做到的事情，但是b/c站点的其他部分需要Selenium，我想我应该用Selenium重写整个过程。问题似乎是，即使我等待抓取，直到我看到第一个元素使用WebDriverWait加载，当我继续抓取元素时，我什么也得不到。我发现一件有趣的事情是，如果我使用urlopen w/像print (uClient.read())这样的东西做一个完整的站点打印，与使用print (driver.page_source)做同样的事情相比，我在美化之后会得到大约300行ht

浏览 23提问于2021-04-29得票数 0

回答已采纳

2回答

当我切换到不同的选项卡时，Selenium抓取停止

、、

我必须刮从印度电子商务网站的产品细节。在显示前20个项目之后，我们需要向下滚动以获得下一组项目。我在python中使用了selenium，它会打开一个选项卡来抓取站点。但当我从这个选项卡切换到另一个选项卡或窗口时，滚动立即停止，无法进一步抓取。这部分代码可以为我滚动。 arrow = browser.find_element_by_xpath('//div[@id="see-more-products" and @class="show-more btn"]') arrow.click() 有没有办法在不激活该选项卡的情况下继续抓取？

浏览 14提问于2020-09-09得票数 0

1回答

模拟浏览器执行以执行脚本

、

我想抓取网页( historical_table)底部的数据。如果我使用requests.get，它将返回页面的源代码，其中只包含创建表的脚本。我所知道的抓取它的唯一方法是使用selenium.webdriver (所以通过浏览器会话)；然而，这种方法速度较慢。有没有一种方法可以在完全不打开浏览器会话的情况下模拟脚本的浏览器执行？

浏览 0提问于2017-03-02得票数 0

3回答

使用请求Python登录网站

、、、

解决方案：这个特定站点的action是action="user/ajax/login"，因此为了实现有效负载，必须将其附加到主站点的url中。(action可以通过在ctrl + f中搜索action在Page Source中找到)。url是将要刮掉的东西。with requests.Session() as s:是在站点内部维护cookies的内容，这就是允许一致刮取的内容。res变量是将有效负载发布到登录url中的响应，允许用户从特定的帐户页面中刮取。在发布之后，请求将达到指定的url。在此基础上，BeautifulSoup现在可以从accounts站点中获取和解析HTML

浏览 6提问于2020-05-24得票数 0

回答已采纳

2回答

找不到文件错误- chromedriver (web抓取)

、、、

我打算用selenium做web抓取。首先，我已经下载了chromedriver并将其放置在正确的路径/文件夹中。然后，编写如下代码： driver = webdriver.Chrome(executable_path=r'C:\Users\chromedriver.exe') 为什么尽管我无数次地检查我的路径是正确的，但它仍然显示错误？

浏览 16提问于2020-12-06得票数 1

1回答

使用Selenium获取Websocket消息，或者使用python捕获web socket消息？

、、、

有没有可能用Selenium Webdriver和python来获取websocket消息？或任何其他方式捕获或抓取特定站点上的websocket消息？

浏览 172提问于2020-08-07得票数 2

回答已采纳

1回答

使用selenium和Scrapy通过多个启动URL抓取动态内容

、、、

我的任务是为一个房地产网站建立一个刮刀，结果将存储在那里供以后处理。有问题的站点是一个国家站点，不会在一次搜索中产生所有内容，它希望您在提供结果之前提供一个地区。为了解决这个问题，我使用scrapy创建了一个抓取器，它使用多个开始URL将我直接带到我感兴趣的区域。该站点也是动态填充的，所以我使用selenium在页面上呈现javascript，然后单击next按钮，直到每个区域的刮取器完成为止。当只有一个开始URL时，这种方法效果很好，但是，只要有多个URL，我就会遇到问题。最初，抓取器工作正常，但在webdriver完成跟随“下一步”按钮到区域末尾之前(例如，单个区域可能有20个页面要跟随)

浏览 0提问于2016-06-09得票数 0

3回答

将svg从高图表数据转换为数据点

、、、

我希望从这个站点的中抓取数据，并解析几个高图表表。我正在使用selenium单击一个链接，然后切换到图表。我转到这个站点，点击Artem Lobov行中的+420作为Pinnacle列。这将创建一个弹出图表。然后切换到活动元素。我想捕捉高图表的图表，以回应点击。我使用selenium的方式如下： actions = ActionChains(driver) actions.move_to_element(driver.find_element_by_id(pin_id)) actions.click() actions.perform() time.sleep(3) driver.switc

浏览 6提问于2017-05-01得票数 5

回答已采纳

1回答

使用python从下拉菜单中抓取所有动态生成的数据的最佳方法

、、、

我正在创建webscraper，它将从这个网站中动态地生成玩家数据。我想要创建一个循环，它将从下拉菜单中为播放器生成数据，刮取数据，然后循环遍历下拉菜单中的所有播放器列表。我很好奇是否使用selenium与站点交互是最好的方法。但我也注意到，每个播放器的URL都遵循特定的模式，所以我考虑了抓取初始页面来收集我需要的所有数据，然后使用这些数据构造URL列表，然后循环遍历URL列表并将它们作为静态页面处理。是否有为这种特定类型的web抓取构建的python工具？

浏览 6提问于2020-03-18得票数 1

回答已采纳

1回答

Selenium Web driver无法在Google Chrome webstore中找到div类

、、、、

我想从中抓取一些数据。但是，每当我尝试使用selenium webdriver时，我都会遇到一个问题。当我使用下面的代码时，我得到一个错误，指出这个元素在站点中不存在。 button = driver.find_element_by_class_name("a-d-l-L") 网站快照：还有，如何从弹出窗口中获取数据(当我按下一个按钮时，该窗口就会出现)。下面的屏幕可以在下一页找到。我想存储弹出消息中显示的数据。

浏览 2提问于2018-09-08得票数 0

1回答

在Azure中嵌入控制台应用程序和调度

、、、

我有一个控制台应用程序，它从不同的站点抓取数据并更新SQL Server中的数据，目前，它在物理服务器上工作，并计划每天运行一次。我们希望开始使用Azure中的现有函数，而不需要VM设置。我们考虑过使用WebJobs，但我们想知道这个解决方案是否对我们有效。(我们不使用selenium，不使用任何web浏览器)

浏览 1提问于2019-08-04得票数 3

2回答

Selenium webdriver系统无效的强制转换异常

、

为了在C#中收集神经网络的一些测试数据，我想使用Selenium来抓取一些动态生成的数据，。Selenium站点上有一个示例实现，它似乎正是我需要的。示例在TagName上搜索，我在ClassName上搜索，但除此之外，我认为它是相同的。然而，当我运行这段代码时，用IList创建一个IWebElements可以工作，但是下面的IJavaScriptExecutor抛出一个无效的强制转换异常：无法将System.Collections.ObjectModel.ReadOnlyCollection 1System.Object类型的对象强制转换为System.Collections.Gener

浏览 2提问于2015-05-24得票数 2

回答已采纳

1回答

selenium是否有相同按钮的最大点击次数

、、、、

我有一个selenium网络抓取项目，有一个按钮我必须点击它1600次，但在1000次点击后，chrome不再加载页面(它只显示加载符号，但不加载页面) selenium有最大点击数吗？如果是，如何将此最大值更改为更大

浏览 0提问于2020-11-26得票数 0

1回答

selenium或其他web刮刀工具对于从chrome到python脚本的数据刮取是必需的吗？

、、

所以我想刮一个网站的数据。我在python脚本中使用selenium来抓取数据。但是我注意到，在Google的网络部分，Chrome可以记录XmlHttpRequest来查找网站的json/xml文件。因此，我想知道我能否在python脚本中直接使用这些数据，因为selenium很重，需要更多的带宽。selenium或其他web刮刀工具是否应该用作与浏览器通信的媒介？如果没有，请提供一些有关只使用chrome本身为我的python文件使用的刮取数据的信息。

浏览 0提问于2019-06-09得票数 0

2回答

使用selenium和python抓取数据时遇到问题

、、

我正在尝试使用selenium从网页中抓取一些数据。我已经成功地让selenium在树莓派上无头工作，我可以连接到我试图抓取的网页，返回页面的标题，并返回我连接到的URL。我一直在看教程中关于如何抓取数据的示例，它们都是这样的： titles_element = browser.find_elements_by_xpath(“//a[@class=’text-bold’]”) 然而，我试图抓取的网页中的每一块数据都有相同的类名。举一个我试图抓取的第一位数据的例子，我试图得到wins的值是4：第二个示例是im尝试抓取的数据，在本例中为kill，值为559：我试图抓取的两个数字共享相同的

浏览 5提问于2021-03-16得票数 0

1回答

选择Python webscraping框架来处理纯基于Javascript的站点

、、、、

我是一个Python程序员，专门从事web抓取，我不得不问这个问题，因为我发现没有任何相关的东西。我想知道Python有哪些流行的、文档齐全的框架可以用来抓取纯Javascript站点？目前我知道Mechanize和Beautiful Soup，但它们不与Javascript交互，所以我在寻找不同的东西。我更喜欢像机械化那样优雅和简单的东西。我做了一些研究，到目前为止，我听说过Selenium、Selenium 2和Windmill。现在我正试着在这三个中选择一个，我不知道还有其他的。那么，谁能指出这些框架的特点以及它们的不同之处？我听说Selenium使用一个单独的服务器来完成它的所

浏览 5提问于2011-06-12得票数 2

2回答

在<article>漂亮的汤中找到所有带有id (不是类)的div

、

在我的个人抓取项目中，无论是使用requests / requests_html还是selenium，我都无法在上找到任何工作卡片。职务是我可以在控制台中打印的唯一字段。公司名称和截止日期似乎位于iframes中，但没有src，不知何故href也是不可删除的。我不确定该站点是否为SPA。另外，DevTools没有显示出感兴趣的XHR。请告知包含所有数据的选择器/脚本标记？

浏览 1提问于2021-07-31得票数 0

1回答

数据

、、

我对刮擦很陌生，如果技术上我能做我想做的事，我就有一个问题。我想刮一个网站，但我看到，有更多的实际信息在API背后的网站，有在网站本身。正如我在我的see浏览器中看到的API的数据一样，是否有一种方法可以像那样用selenium抓取的前端呢？在图像中，您可以看到站点的一些API数据。非常感谢!

浏览 2提问于2021-02-12得票数 1

1回答

在python中，如何选择ID号更改的HTML节点？

、、、

我正在编写一个webscraper，使用Python、BS4、Selenium从一个特定的网站抓取用户配置文件的数据。我正在尝试从站点的某个特定部分抓取数据--特定区段节点没有来自其他节节点的唯一标识功能，只有一个ID号前面有“成员”一词，如下所示： <section id="ember31" class="artdeco-card ember-view pv-top-card"> 部分ID可以是“成员”，后面跟着两个或三个数字-这些数字随机每次页面加载。整个页面中有多个，但我只想选择一个。这对于刮取一个配置文件是可以的，但是我如何确保代码在每次运

浏览 2提问于2022-07-11得票数 0

1回答

Selenium中的Xpath通配符以捕获多个结果实例

、、、

我正在尝试使用Python、Selenium和Xpath从一个站点收集一些数据。我需要多个数据点，它们都在这个结构中： /tr[1]/td /tr[2]/td /tr[3]/td /tr[4]/td 我不知道有多少个<tr>，所以我试图以一种只给出所有结果的方式(希望在一个列表中)来搜索。这是我的实际代码，但这只是给我个人的结果。我刚接触过web抓取，也不确定这个问题是否与我的Xpath有关(没有正确地执行通配符，或者它是否与我的get_attribute标记相关--如果它正在获取innerhtml，那么它是只为单个条目获取的吗？) data = driver.find_elem

浏览 5提问于2014-04-04得票数 1

回答已采纳

1回答

爬网时设置区域设置/区域

、、

我正在尝试从亚马逊网络服务机器上的网站抓取信息。这台机器，在美国托管，给我的产品在美元的价格。当我在本地机器上爬行时，我如何获得INR中的价格。我通常使用Scrapy抓取信息，但我对使用Selenium或任何其他工具进行同样的操作持开放态度。我尝试使用selenium并将浏览器区域设置设置为"en-IN“，但无济于事。

浏览 0提问于2016-02-06得票数 0

2回答

在web服务器上使用java内容的抓取

、、

我想从一个显然使用javascript生成表的站点(这个站点是oddsportal.com)中抓取内容。我看到Scrapy无法加载动态内容，我阅读selenium可以处理它，但我计划使用web服务器。有什么方法可以解析这个站点或获取动态请求并使用scrapy解析它吗？例如，我想从这个页面导入完整的表，包括标题、匹配名和赔率。

浏览 3提问于2016-01-28得票数 1

回答已采纳

2回答

使用Selenium和Python进行网络抓取:捕获JSON主体

、、、、

我正在尝试抓取一个在后台运行一些AJAX的网页。使用python和Selenium，我已经完成了加载网页、在表单中输入数据、单击提交和等待的过程。在这一点上，我正在尝试捕获重新生成的JSON格式的数据，但是文章建议不可能将JSON主体提取出来。我试着自己研究一下Selenium代码，让它返回所有内容，但我没有太多的运气。有没有人遇到过类似的问题，并有解决方法的建议？我不需要使用selenium (或者python )，谢谢！

浏览 1提问于2013-03-24得票数 1

回答已采纳

1回答

使用Scrapy和selenium抓取网站

、、

我打算用Scrapy在上抓取html内容。但是，由于站点的Javascript使用和#，我想我也必须使用Selenium (Python)。我想写我自己的代码，但我是编程新手，所以我想我需要帮助；我想先进入ntry.com，然后单击一个名为的锚点转到 <body> <div id="wrap"> <div id="container"> <div id="content"> <a href="/sco

浏览 2提问于2016-11-26得票数 0

1回答

selenium (python) webdriver驱动程序JavaScript (noscrypt)

、、、、

我试着从一个网站上抓取数据，提供学生的笔记来做分析，我试着做得很好。 from selenium import webdriver #set chromodriver.exe path driver = webdriver.Chrome(executable_path="C:\\chromedriver.exe") #set page load timeout #launch URL driver.get("https://amatti.education.gov.dz/") 运行此代码时发生的第一件事是打开站点:站点打开后打开正常的，然后转到这个站点：打开

浏览 3提问于2022-06-07得票数 0

2回答

如何使用Selenium和nokogiri提取JS呈现的HTML？

、、、、

考虑两个网页-- 和。第二个站点很容易使用nokogiri，因为它不使用JS。然而，1号站点不能仅仅使用nokogiri就被刮掉。我搜索了很远，搜索范围很广，发现如果我用自动化的web浏览器加载页面，我就可以抓取呈现出来的HTML。下面有以下代码： # creates an instance driver = Selenium::WebDriver.for :chrome # opens an existing webpage driver.get 'http://www.bigstub.com/search.aspx' # wait is used to let the

浏览 1提问于2018-07-22得票数 0

回答已采纳

2回答

TypeError：init()获得了一个意外的关键字参数'service‘错误，使用Python和公司pac文件

、、、、

我已经为这个问题挣扎了一段时间，但现在我又回到了这个问题上。我试图使用selenium来使用pac文件从公司代理后面的URL中抓取数据。我使用Chromedriver，我的浏览器在它的配置中使用pac文件。我一直在尝试使用desired_capabilities，但是文档很糟糕，或者我没有掌握一些东西。最初，我试图用漂亮的汤进行网络抓取，除了我现在需要的数据是在javascript中，而javascript是无法用bs4读取的。下面是我的代码： import pandas as pd from selenium import webdriver from selenium.webdrive

浏览 9提问于2021-12-30得票数 4

回答已采纳