使用selenium重复某些过程的python with抓取

文章/答案/技术大牛

发布

2回答

python、selenium、google-chrome、web-scraping

我试着从这个网站上抓取公司的联系方式： https://de.statista.com/companydb/suche?import webdriverfrom selenium.webdriver.common.by importByimport pand

浏览 6提问于2020-09-25得票数 0

回答已采纳

2回答

Python抓取只能通过谷歌OAuth登录访问的数据

python、web-scraping、oauth-2.0、beautifulsoup、python-requests

我想从一个网站上刮一些数据，该网站使用谷歌OAuth进行身份验证。有些数据只有在我执行登录时才能访问。登录后与谷歌帐户，然后您将被重定向到网站的主页，所有的数据将很容易通过一个简单的点击访问。是否可以在后台执行此登录和身份

浏览 0提问于2019-01-01得票数 0

1回答

使用Python对页面和浏览器扩展数据进行with抓取

python、html

我正在尝试获取网页的文本数据，就像它在我的浏览器上的样子一样。我的问题是，我还使用了一个网页的扩展，它的给定数据(由于它而显示的文本)也要被收集。我知道urllib，但它只收集正常的网页数据，而不是扩展生成的数据。那么，如何收集这些数据有什么帮助吗？另外，我想问的是，这是否可能？

浏览 12提问于2020-08-15得票数 0

2回答

将Gmail主题保存为文本文件？

gmail

因此，很难管理数以百计的电子邮件，所以我想自动化它。那么，是否可以将所有或未读邮件的主题保存在文本、CSV或Excel文件中？

浏览 0提问于2016-10-30得票数 2

回答已采纳

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

python、web-scraping

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

4回答

我想从一个网站上有TextFields，按钮等抓取数据。我的要求是填写文本字段并提交表单以获得结果，然后从结果页面中抓取数据点。我想知道Scrapy是否有这个功能，或者是否有人可以推荐一个Python库来完成这个任务？附注:我正在使用selenium Firefox驱动程序从其他网站抓取数据，但这个解决方案并不好，因为selenium Firefox驱动程序依赖于Firefox的EXE，即在运行刮板之前必须安装Firefox火狐有时会

浏览 1提问于2013-05-28得票数 8

回答已采纳

1回答

在python中实现webautomation机器人的多线程还是多处理？

python、multithreading、selenium、multiprocessing、webautomation

我的脚本扫描nike.com上的某些产品的价格，并将不断抓取产品的价格，直到它开始销售，在这一点上，它将创建多个实例，以登录到多个帐户购买产品。我已经有了抓取网站和检出产品的功能，但我想知道我应该使用多进程还是多线程来执行登录和检出过程？在处理web自动化过程的多个实例时，哪一个会更有效？如果有帮助的话，我在firefox中使用selenium

浏览 2提问于2018-09-26得票数 0

1回答

当Selenium由于错误无法加载链接时，如何跳转到新网站？

python-3.x、selenium、selenium-webdriver、beautifulsoup、selenium-chromedriver

我有一个大约13.000个网站的列表。从这些链接中，我打算一个接一个地通过Python、Beautiful和Selenium来抓取信息。对于大多数网站来说，抓取过程很好。但是，Selenium偶尔会遇到特定链接的问题。不幸的是，这个错误阻止了整个刮擦过程。当我再次运行该过程时，我希望防止再次发生这种情况。在这里，我使用循环的第一部分来抓取链接：

浏览 1提问于2021-04-29得票数 0

回答已采纳

1回答

用Python抓取Ajax

python、ajax、screen-scraping

我一直在用Python练习我的抓取能力。我得到了相当好的，但遇到了一些网站，让我相当难倒。他们利用Ajax来寻找附近的位置。有几个网站也是这样设计的。其中一个网站是www.applebees.com。即使使用firebug，我也找不到答案。 Python如何通过ajax调用请求位置？我完全被难住了。该页面是www.applebees.com，在右侧有一个表单输入邮政编码，它拉出最接近该邮政编码的位置。但是，如果我在输入此邮政编码后拉出

浏览 3提问于2012-02-27得票数 1

回答已采纳

2回答

使用Selenium和Python进行网络抓取:捕获JSON主体

python、ajax、json、selenium、web-scraping

我正在尝试抓取一个在后台运行一些AJAX的网页。使用python和Selenium，我已经完成了加载网页、在表单中输入数据、单击提交和等待的过程。在这一点上，我正在尝试捕获重新生成的JSON格式的数据，但是文章建议不可能将JSON主体提取出来。我试着自己研究一下Selenium代码，让它返回所有内容，但我没有太多的运气。有没有人遇到过类似的问题，并有解决方法的建议？我不需要

浏览 1提问于2013-03-24得票数 1

回答已采纳

1回答

是否使用Python通过Microsoft Live登录？

python、login、python-requests

我正在试着写一个程序，可以为战争机器4获取你的信息。我知道如何解析网页之类的，但我从来没有花时间通过python登录一个网站。现在，这带来了一个问题，因为我需要登录到我的Microsoft Live个人资料来获取我的统计数据。我试过我认为可行的方法，但每次都走进死胡同。这就是我目前所拥有的(这是有效的)import urllib2 password

浏览 10提问于2017-03-13得票数 1

1回答

多元素硒屏幕截图

python、selenium、web-scraping

我使用Python Selenium来抓取一个网站。在刮擦过程中的某个时刻，我想拍一张截图。我只是“粗略”地想要拍摄一张涵盖特定WebElements的截图。如何拍摄包含多个WebElements的部分的屏幕截图？

浏览 2提问于2022-11-23得票数 0

回答已采纳

2回答

如何使用selenium* web驱动程序托管由web抓取支持的后端服务？*

python、selenium、selenium-webdriver、flask、web-scraping

因此，我正在开发一个项目来抓取一个网站并将数据传递给用户，但是我正在使用带有python/flask的selenium/selenium web驱动程序。我本来打算用漂亮的汤，但我抓取的网站需要在页面上进行一些交互。我有一切工作与刮刀，我只是试图找出一种方法，使这项工作，如果我想要托管在一个网站上使用的服务，如heroku。目前Selenium正在打开一个ch

浏览 20提问于2020-05-03得票数 1

2回答

如何防止我的脚本在第一次循环后中断？

python、python-3.x、selenium、selenium-webdriver、web-scraping

我用python编写了一个脚本，使用selenium从网页中获取一些特定的信息。由于该网页是保密的，我不能透露网站地址。无论如何，我期待着我现有的抓取器将点击网页上20个链接中的每个链接，并到达所需的页面，它将收集信息并返回到较早的页面，重复相同的操作，直到所有20个链接都耗尽。然而，抓取器点击一个链接，转到所需的页面解析信息，但没有返回主页重复

浏览 1提问于2017-10-14得票数 0

1回答

单击某个元素可使用python* web抓取功能动态更改内容*

python、web-scraping、beautifulsoup

所以我从我的作品网站上收集了所有的数据，以获得我所有的班次和关于那些班次的数据，比如python和漂亮的汤。抓取移位是很好的，因为它们只是元素。但是要获得信息，比如谁在轮班，你必须单击一个元素，它会显示一个隐藏的元素，但也会根据你点击的日期更改信息。这可以使用javascript函数showFloorPlan('N','N','N','20200624')

浏览 17提问于2020-06-23得票数 0

1回答

在抓取之前需要登录到站点

php、curl、web-scraping、autologin

我写了一个PHP脚本来抓取网站(zillow.com)上的搜索结果。但是，在用户登录到他们的站点之前，站点会隐藏部分结果。当我的抓取器运行时，它不会收集任何登录所需的信息。它只抓取未登录的用户可用的信息。

浏览 0提问于2014-07-17得票数 0

1回答

抓取问题：“检查元素”与“查看页面源”不同

html、python-3.x、selenium、web-scraping、beautifulsoup

当我单击所需的选项卡，在显示其内容后，首先会出现两个问题。1-网页地址不改变，对所有标签都是相同的。2-当我看到带有浏览器(firefox和chrome)的“查看页面源”的页面源时，所有选项卡的页面源看起来也是相同的，而当我对其中一个选项卡使用“检查Elemnt”时，我看到我的目标内容以html形式显示的代码问题是，我无法通过python访问所需选项卡的内容，这是web世界中可用的

浏览 2提问于2020-02-06得票数 4

回答已采纳

2回答

使用PHP爬行网站，但该网站运行JS生成标记

javascript、php、web-crawler

在过去的几周里，我一直在做网络爬行。使用PHP库(PHP简单DOM)，im运行php脚本(使用终端)从其中获取一些URL和JSON一些数据。到目前为止这件事一直运作得很好。最近，我想扩展特定站点的爬行，并遇到了以下问题：与其他站点不同的是，到目前为止，这个站点只回覆一个基本的标记服务器端，而是依赖于单个JS脚本来构建相关的加载标记。显然，我的PHP脚本无法处理这个问题(因为它没有执行JS，因此该站点在我所能知道的范围内大部分保持为空

浏览 0提问于2018-04-29得票数 1

回答已采纳

1回答

用Laravel和Selenium进行Web抓取

php、laravel、selenium、web-scraping

我目前正在使用Python进行web抓取。我使用了Selenium和Beautifulsoup库来抓取。我最近知道Selenium适用于php/Laravel。我的问题是，我可以使用Laravel + Selenium web驱动程序抓取web吗？如果是，你能给我提供一些链接或存储库，以便我学习吗？我被迫在我的抓取工作中使用php&#x

浏览 19提问于2019-11-19得票数 0

2回答

如何在Python中导出Selenium测试套件？

python、selenium-ide

我知道如何从Selenium IDE导出python中的测试用例。但是我想知道是否有可能在python中导出Test？

浏览 5提问于2013-11-05得票数 7

点击加载更多