Python Selenium抓取twitter无限加载页面_Python Web抓取:通过加载页面抓取页面_使用Python对Twitter页面进行Web抓取 - 腾讯云开发者社区

screen-scraping

我正在尝试使用selenium和chromedriver从网站“”中抓取数据。当我运行代码时，chromedriver成功地输入了url，但无法加载页面，显示了一个空白页面。我尝试将目标网站切换到google.com，但抓取成功。我的结论是目标网站服务器检测到selenium并拒绝发送回数据。那么如何在Python语言中使用selenium和chromedriver从网站抓取数据呢？我是一个Python初学者，感谢您的帮助。下面是我的简单代码： from selenium import webdriver my_driver_path = r"C:\python chrome driv

浏览 0提问于2020-05-29得票数 0

2回答

使用selenium/chromedriver阻止网页自动重载

python、selenium、selenium-chromedriver

我正在使用python和selenium包和chromedriver来抓取网页。页面每30分钟自动重新加载一次(可能是通过java-script)，这会破坏我的抓取进度。网络抓取是通过脚本和与页面进行进一步交互所需的javascript ist来完成的。有没有可能通过chromedriver的标志来阻止页面重新加载呢？

浏览 24提问于2020-11-13得票数 0

回答已采纳

1回答

使用Selenium的页面滚动不起作用

python、selenium-webdriver、twitter、web-scraping

我需要一条推文的所有回复/评论。相关的有一个答案，它需要下载太多的数据，然后在交叉匹配后丢弃，由于速率的限制，这对我来说是不可能的。我试图通过第一次使用python加载tweet 来抓取页面。要滚动页面，我尝试使用selenium web驱动程序。但我仍然只收到第一页的回复。由于某种原因，滚动不起作用。我尝试了这些、、、方法，但在这种情况下都没有起作用。 from selenium import webdriver from selenium.webdriver.common.keys import Keys import time driver = webdriver.Firefox()

浏览 4提问于2017-09-26得票数 0

1回答

Selenium:获取滚动页面的HTML

python、selenium

我是Selenium的新手，我正在尝试滚动到Twitter个人资料的底部，这样我就可以加载所有的tweet来进行web抓取。我需要得到已经滚动的页面的HTML，我试过了： from selenium import webdriver from selenium.webdriver.common.keys import Keys browser = webdriver.PhantomJS(service_log_path=os.path.devnull) browser.get('https://twitter.com/earthpix/media') # This pag

浏览 0提问于2019-02-18得票数 0

1回答

webcrawling-有哪些可能的方法来检测使用javascript加载的页面？

web-crawler

我想抓取一些网站。我正在使用selenium/PhantomJS抓取JS(react、angular、jquery等)。和python爬行其他所有的东西。我的主要问题是，我无法区分页面是否使用JS加载。任何想法都将受到欢迎！

浏览 2提问于2018-03-16得票数 0

1回答

我的腌制饼干在硒蟒里不起作用？

python、selenium

我想打开一个selenium实例，然后手动登录到任何站点，然后保存会话。当浏览器打开并进入登录页面时，我登录，然后进入firefox中的任务栏，然后是首选项，然后是安全性，然后勾选，记住登录站点。 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdrive

浏览 2提问于2015-12-08得票数 2

回答已采纳

1回答

TypeError : WebElement是不可迭代的

python、selenium、twitter

在我的Python中，我试图抓取最多5个滚动的Twitter页面，但是我的脚本抛出了一个TypeError，声明WebElements不可迭代。任何解决这个问题的方法。 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys path_chromedriver = '/Users/SubrataMohanty/Desktop/chromedriver' browser = webdriver.Chrome(path_chromedriver) bas

浏览 3提问于2017-05-16得票数 0

回答已采纳

1回答

当页面向下滚动时元素可用时，如何在动态页面上获取元素？

python、selenium、web-scraping

我正在尝试我们用Python和Selenium抓取Instagram帖子，但我只得到前23个帖子，因为它们加载到页面滚动的地方，对于更多的帖子，页面需要向下滚动更多的帖子，以便更多的帖子加载到页面。你知道如何获取一个页面的所有帖子，然后遍历它们吗？

浏览 7提问于2020-09-12得票数 0

回答已采纳

1回答

无法使用Selenium转到twitter页面的底部

python、selenium、selenium-webdriver、web-scraping、beautifulsoup

我想用Selenium从twitter上抓取所有的tweet。因此，我想在页面的底部开始，我尝试了很多，但它显示“返回到顶部”，如图所示。如果应用任何其他方法，我如何使用Selenium在页面底部/“返回顶部”消失，或者如何抓取所有tweet？ import pandas as pd import selenium from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support

浏览 13提问于2019-02-14得票数 0

2回答

使用Python通过AJAX抓取网页

javascript、python、ajax

我知道使用Python的Beautiful Soup抓取HTML的基础知识。但是，页面会进行AJAX调用，以获取球员上场时间的数据。(我使用firebug识别了网络调用)。我的问题是:有没有可能使用python来“抓取”这些信息？我需要什么工具，除了HTML我还应该知道什么？(我目前正在阅读有关JavaScript和AJAX的文章)。我为这个不明确的问题道歉，但我甚至不知道如何用谷歌搜索可能存在也可能不存在的工具。更新:几天后，我提出了一个在Python语言中结合使用Selenium和PhantomJS的解决方案。基本上，我使用Selenium转到每个链接，等待页面加载，然后抓取信息。在

浏览 0提问于2013-11-02得票数 0

1回答

停止页面加载- Selenium

python、selenium

不幸的是，我无法阻止页面使用Python中的Selenium进行加载。我试过： driver.execute_script("window.stop();") driver.set_page_load_timeout(10) webdriver.ActionChains(driver).send_keys(Keys.ESCAPE).perform() 该页面是一个不断加载的.cgi。我想要么从页面上的类中抓取数据，要么从页面标题中抓取数据，但是这两个方法都不适用于上述3种方法。当我尝试手动按ESC，或点击十字，它的工作完美。感谢您的阅读。

浏览 3提问于2022-02-13得票数 0

1回答

基于Javascript的网页抓取登录

javascript、python、selenium、mechanize

我正在尝试为sbrodds.com编写一个抓取引擎。不幸的是，我需要登录才能获得正确的数据。我研究了机械化和selenium，但遗憾的是，我在python和web抓取方面做得很差，并且不了解如何使用它们。以下是登录框的Chrome inspect elements页面的屏幕截图：有人可以提供建议，我应该使用什么技术来执行登录到这个网站内部的Python代码？最终的目标是将登录页面的数据加载到BeautifulSoup中。

浏览 3提问于2015-12-10得票数 1

1回答

无法使用python定位元素: //input[@name="session[username_or_email]"]

python、html、selenium

当涉及到selenium和web抓取作为一个整体时，我是一个初学者，今天我试图学习一个关于selenium的教程，他们在其中使用以下命令： from selenium import webdriver driver = webdriver.Firefox() driver.get("https://twitter.com/home") username = driver.find_element_by_xpath('//input[@name="session[username_or_email]"]') 要在twitter登录页面的html中

浏览 2提问于2021-01-26得票数 0

回答已采纳

1回答

无法工作的Python send_keys无法设置登录字段

python、selenium、web-scraping

我使用selenium来抓取twitter (而不是使用api的实践selenium)，当它到达下一页时需要登录，使用下面的代码定位登录输入字段，然后发送用户名和密码字符串： from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Chrome(executable_path="Chrome") driver.get("https://twitter.com/login") username = driver.find_el

浏览 3提问于2016-07-03得票数 1

回答已采纳

1回答

刮取多个页面的动态DataTable但相同的URL

python、selenium、beautifulsoup、datatables、screen-scraping

我有使用C的经验，我开始接触Python，主要是为了好玩。我想在这里刮一下这个页面，。由于具有我感兴趣的内容的表是在连接到页面后动态创建的，所以我使用：在browserBeautiful 4中加载页面，以抓取加载的数据目前，我能够抓取前25个条目中所有感兴趣的字段，这些条目一旦连接到页面就会加载。我可以在一页中有多达100个条目，但总共有1045个条目，它们在不同的页面中被分割。问题是，对于所有页面，url都是相同的，并且表的内容在运行时被动态加载。我想要做的是找到一种方法，能够抓取所有的条目，也就是1045。通过互联网阅读，我知道我应该发送一个正确的帖子请求(我还发现他们从我的代码中检索

浏览 3提问于2020-11-12得票数 1

回答已采纳

1回答

Selenium强制加载整个页面

python、selenium、selenium-webdriver

我在python中使用selenium，并且我试图抓取这个页面。https://www.vexforum.com/u?period=all。我希望能够获得这个论坛上所有大约40,000个用户的数据，但它最初只加载了50个。您可以继续在页面上滚动以加载论坛的所有成员。有没有办法在一开始就请求所有40k成员的整个页面？感谢您能提供的任何帮助！

浏览 18提问于2021-01-22得票数 1

1回答

脚本无法定位Twitter的密码字段

python、selenium、selenium-webdriver、twitter

在这个使用Selenium的超级basic python脚本中，我只是尝试自动化我的twitter登录，以便我可以开始抓取。当chrome会话打开时，用户名已填写，但密码字段保留为空。 import bs4 from selenium import webdriver driver = webdriver.Chrome(); url = "https://twitter.com/login" driver.get(url) assert "Twitter" in driver.title username = driver.find_element_by_

浏览 9提问于2019-10-17得票数 0

1回答

抓取动态加载的网站

python、curl、web-scraping、scrapy

当我使用cURL加载页面"“，或者尝试抓取页面时，响应主体是空的。显然，该页面是使用JavaScript动态加载的。仍然加载呈现的源代码的选项是什么？我尝试通过Firefox驱动程序使用Selenium，但这会使我的CPU使用率在15秒内达到100 %。我猜这不是一个可行的选择，特别是对于需要使用Selenium抓取100,000+页面的大型项目。此外，为了理解动态加载页面的概念。这些是如何工作的？需要什么代码才能使它们工作？

浏览 0提问于2018-04-12得票数 2

1回答

Selenium不工作在服务器上，因为它在本地机器上工作。

python、selenium、centos、pyvirtualdisplay

我最近完成了Selenium Python刮板。当我在我的个人机器上运行它时，它运行的非常好，但是当我在服务器上运行它时，结果是不一样的。在服务器上，我使用pyvirtualdisplay运行无头程序。 browser.get('https://example.com') html = browser.page_source 这是我的pyvirtualdisplay代码。 display = Display(visible=0, size=(800, 600)) display.start() 在本地机器上运行时，它完全抓取了由JavaScript生成的HTML，但当我在服

浏览 5提问于2016-06-15得票数 3

1回答

Selenium:按钮导致clickAndWait。页面加载，但Selenium停止记录更多

selenium、web-scraping

我正在尝试记录(为了抓取)这个站点：我在表单中输入我的信息，然后单击“显示航班”。这会导致Selenium命令"clickAndWait“。页面加载，我可以点击并做一些事情--但是Selenium已经停止了录制。有没有可能克服这一点？我之所以尝试Selenium，是因为传统的方式(Python urllib2和cookie)对我不起作用。认为他们可能非常有目的地阻止了任何人刮。编辑:我知道页面设置了一个cookie并进行了重定向。但这应该由Selnium来处理，不是吗？

浏览 0提问于2013-01-17得票数 0

1回答

Selenium驱动程序的方法'driver.set_page_load_time(30)‘错误

selenium、web-scraping、page-load-time

driver = webdriver.Firefox() driver.set_page_load_timeout(30) 我正在尝试使用selenium驱动程序从web上抓取数据。但是，在python中设置每个页面的最大加载时间时，我总是收到错误消息，并且没有任何有用的信息。我使用的是Mac，python版本是2.7。有人能告诉我如何解决这个问题吗？这真的让我抓狂。

浏览 0提问于2017-04-20得票数 0

3回答

使用selenium滚动到无限加载页面的末尾

selenium、selenium-chromedriver

我正在使用Selenium从twitter上抓取追随者的名字，这个页面是无限的，每当我向下滚动时，我都可以看到新的关注者。不知何故，我想去到页面的底部，这样我就可以刮所有的追随者了。 while number != 5: driver.execute_script("window.scrollTo(0,document.body.scrollHeight)") number = number + 1 time.sleep(5) usernames = driver.find_elements_by_class_name( "css-4r

浏览 7提问于2020-08-29得票数 2

回答已采纳

3回答

在运行时并发保存django中的对象

django-models

如何在django中运行后端，在页面运行时将对象保存在数据库中？例如，一个抓取器在后台无限期地运行，并使用文章(标题、摘要、url)更新模型页面显示那些已经在数据库中的内容，并可能在此期间(如在twitter上)显示一些您可以加载的抓取页面。一种方法是用python-mysql脚本编写它，这样可以直接更新表。但是，有没有办法访问django-models界面呢？换句话说，django的方式是什么？

浏览 0提问于2011-05-11得票数 0

回答已采纳

1回答

使用Selenium进行Web抓取不能捕获全文

python、selenium、web-scraping、css-selectors、webdriverwait

我正在尝试使用Selenium/Python从链接列表中挖掘相当多的文本。在本例中，我只抓取了其中一个页面，并成功抓取了全文： page = 'https://xxxxxx.net/xxxxx/September%202020/2020-09-24' driver = webdriver.Firefox() driver.get(page) elements = driver.find_element_by_class_name('text').text elements 然后，当我尝试遍历整个链接列表(此页面上的所有按天链接：) (使用与从单

浏览 1提问于2020-10-20得票数 1

2回答

通过Selenium中的webdriver传递用户代理

python、selenium、screen-scraping、web-scraping、user-agent

我正在做一个在Python中使用Selenium的网站抓取项目。当我通过浏览器打开主页时，它可以正常打开。但是，当我尝试在Selenium中通过webdriver()打开网页时，它打开了一个完全不同的页面。我认为，它能够检测user-agent(不确定它叫什么)，并且能够检查浏览器或其他东西的属性。是否可以通过webdriver()传递属性，以便加载正确的主页。谢谢

浏览 4提问于2011-11-27得票数 10

回答已采纳

1回答

selenium是否有相同按钮的最大点击次数

python、selenium、selenium-webdriver、webdriver、click

我有一个selenium网络抓取项目，有一个按钮我必须点击它1600次，但在1000次点击后，chrome不再加载页面(它只显示加载符号，但不加载页面) selenium有最大点击数吗？如果是，如何将此最大值更改为更大

浏览 0提问于2020-11-26得票数 0

4回答

使用python抓取具有无限滚动功能的站点

python、selenium、web-crawler、scrapy

我一直在做研究，到目前为止，我发现了python包，我将计划使用它的，现在我试图找出一个好方法来建立一个好方法来建立一个刮板使用抓取无限滚动网站。在深入研究之后，我发现有一个名为selenium的包，它有python模块。我有一种感觉，有人已经这样做了，使用Scrapy和来抓取无限滚动网站。如果有人能指出一个例子，那就太好了。

浏览 2提问于2014-03-28得票数 9

1回答

Python Web抓取:通过加载页面抓取页面

python、python-3.x、web-scraping

我正在建立一个网络抓取项目使用python与美丽的汤和请求模块，问题是我想要抓取的网站有一个加载页面(完全不同于主页)，然后它将我重定向到主页。我怎么能等到页面加载完成，然后从主页上抓取数据呢？我知道Selenium可以处理这些类型的网站，但网站必须使用web驱动程序启动，这是我不希望在我的项目中使用的原因，这就是为什么我使用Beautiful Soup和requests模块。到目前为止，我的代码如下。 from bs4 import BeautifulSoup import requests import time source = requests.get(url).text prin

浏览 15提问于2020-10-25得票数 0

2回答

如何让Selenium不用等到页面完全加载，这个脚本很慢？

python、selenium、google-chrome、selenium-chromedriver、pageloadstrategy

Selenium driver.get (url)等待整个页面加载。但是一个抓取页面试图加载一些死掉的JS脚本。所以我的Python脚本等待它，几分钟后就不能工作了。这个问题可能出现在网站的每一个页面上。 from selenium import webdriver driver = webdriver.Chrome() driver.get('https://www.cortinadecor.com/productos/17/estores-enrollables-screen/estores-screen-corti-3000') # It try load: https

浏览 5提问于2017-06-27得票数 20

回答已采纳

2回答

从Youtube上抓取

python、selenium、xpath

我试图从代码中的链接中抓取视频标题。本质上是想要scroll+scrape。我的代码运行了，但它抓取了页面的一半，并且不是抓取剩下的一半，而是重复前半部分。 import time from selenium import webdriver from bs4 import BeautifulSoup import requests from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By from selenium.webdriver.support

浏览 12提问于2020-11-25得票数 0

1回答

使用Python进行Web抓取，而无需加载整个页面

python、python-3.x、web-scraping、web-scraping-language

我刚用Python开始了几个web抓取项目。我目前使用lxml，Beautiful Soup和requests模块来抓取网页。我需要知道是否有任何方法可以只从网站获得我们需要的数据，而不是加载整个页面。requests模块执行GET请求并接收整个，bs4，lxml只过滤数据。我尝试过Selenium，但这也打开了浏览器，这不太适合工业项目。我对scrapy和splash一无所知。我也不是在寻找API key方法，它并不适用于所有地方。

浏览 28提问于2021-11-13得票数 0

回答已采纳

2回答

是否可以使用Selenium WebDriver来驱动PhantomJS？

selenium、web-scraping、webdriver、phantomjs

我正在浏览Selenium WebDriver的文档，例如，它可以驱动Chrome。我在想，“驾驶”PhantomJS不是更有效率吗？有没有一种方法可以在PhantomJS中使用Selenium？我的预期用途是web抓取:我抓取的网站加载了AJAX和许多可爱的JavaScript，我认为这个设置可以很好地替代我目前正在使用的Scrapy Python框架。

浏览 4提问于2012-06-27得票数 35

回答已采纳

2回答

抓取支持ajax的网页

ruby、nokogiri、scrapy、mechanize、watir

我需要刮多家公司的职业网页(征得他们的许可)。决定使用什么的重要因素我每天要刮2000页左右，所以需要一个体面的快速解决方案。其中一些页面在加载页面后通过ajax填充数据。我的网站栈是带有MySql等的Ruby/Rails。我之前使用scrapy(python)编写了刮板(+ Selenium，用于启用ajax的页面)。我的怀疑我很困惑是否应该使用python (即scrapy + Selenium，我认为这是python中最好的选择)，还是更喜欢使用ruby(因为我的整个代码库都在ruby中)。 Scrapy + selenium通常比较慢，在R

浏览 3提问于2013-09-30得票数 5

回答已采纳

1回答

如何在中设置Try/除超时以查找元素？

python、selenium

我正在使用Python来抓取几个web页面，而且我以前知道有些页面没有所有的元素。我已经在等待页面加载，并使用try/查找元素(例如，类xyz )，需要30秒才能进入异常。 try: xyz = driver.find_element_by_css_selector('div.xyz').text except NoSuchElementException: print("\tError finding xyz...") 如何设置较小的超时(例如5秒)，使Selenium在运行异常并在下一页上移动之前查找元素的最大时间？

浏览 1提问于2019-08-29得票数 6

回答已采纳

3回答

Selenium缓慢向下滚动

python、selenium、web、screen-scraping

我正在尝试使用Python在javascript渲染的网页上进行动态web抓取。 1)然而，只有当我缓慢地向下滚动页面时，元素才会加载。我试过了： driver.execute_script("window.scrollTo(0, Y)") (这不起作用，因为它只滚动到页面上的某个点，而忽略了其他结果) 和 driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") (这不起作用，因为元素在向下滚动到页面末尾时不会加载-它需要用户缓慢地滚动整个页面) 2)如何让Selen

浏览 48提问于2019-05-07得票数 1

1回答

Selenium与人类用户交互以提供登录信息。

python、selenium

我想编写一个简单的Python脚本，使用Selenium从网站中抓取信息，但与一个(备用)用户协作，后者在某个时候将在浏览器中提供信息。如何从脚本中获得以下行为：等到人类用户输入信息(如登录详细信息) 提交信息然后(只在那时)在人工提交后加载页面来做一些事情。

浏览 0提问于2014-10-01得票数 0

2回答

Selenium.common.exceptions.NoSuchElementException错误即使有显式等待

python、selenium、web-scraping

，怎么了？我目前正在尝试从subreddit中抓取数据(我使用的是旧的reddit ->扩展名，它以这种方式恢复了reddit的旧外观，这样更容易抓取)，但是每当我试图获得结果时，我都会从这段代码中得到错误： xpath = "//a[@class='title may-blank loggedin ']" element = driver.find_element_by_xpath(xpath) selenium.common.exceptions.NoSuchElementException:消息:没有这样的元素:无法定位元素：{“方法”：“xpat

浏览 0提问于2021-02-06得票数 0

回答已采纳

1回答

当Selenium由于错误无法加载链接时，如何跳转到新网站？

python-3.x、selenium、selenium-webdriver、beautifulsoup、selenium-chromedriver

我有一个大约13.000个网站的列表。从这些链接中，我打算一个接一个地通过Python、Beautiful和Selenium来抓取信息。对于大多数网站来说，抓取过程很好。但是，Selenium偶尔会遇到特定链接的问题。例如，它在加载其中一个错误消息时提供了以下错误消息： WebDriverException: Message: unknown error: net::ERR_SSL_BAD_RECORD_MAC_ALERT (Session info: chrome=90.0.4430.93) 当我找到驱动程序并手动重新加载页面时，它工作得很好。不幸的是，这个错误阻止了整个刮擦过程。当我再次

浏览 1提问于2021-04-29得票数 0

回答已采纳

2回答

使用重复类在Selenium + Python中查找元素

python、selenium、web-scraping、selenium-chromedriver

我正在使用Selenium + Python在Battlefy页面上抓取匹配结果，以便稍后操作并进入数据库。我正在尝试使用Selenium抓取团队的名称和结果，因为动态加载JS需要我使用无头浏览器。但是，我尝试使用类名获取每个大学的文本，但是使用Selenium的find_elements_by_class_name方法似乎行不通。网页：当前代码： >>> chrome_path = r"C:\Users\...\chromedriver.exe" >>> driver = webdriver.Chrome(chrome_path) &g

浏览 0提问于2020-02-15得票数 2

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

python、web-scraping

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

1回答

ajax页面的无浏览器web抓取

ajax、selenium、web-scraping

在阅读了一些web抓取教程后，我尝试过使用Selenium。其目的是web/屏幕抓取在Ajax调用之后加载所需数据的页面，当(此ajax调用是在初始页面加载之后进行的).. 第二个目标是在后台运行Selenium代码(不打开任何浏览器)，以允许加载页面(包括Ajax调用)、检索最终的HTML并在本地执行所需的处理。到目前为止的代码如下(来自的代码教程) public ActionResult Index() { //-- //Below path should contain IEDriverServer.exe var chrome

浏览 2提问于2013-03-16得票数 0

回答已采纳

2回答

使用Selenium Python滚动到底部

python、selenium、selenium-webdriver、scrapy

我使用Selenium和Python从网站中提取医生列表。我选择选项Specialty并提取结果。当我们像在twitter提要中一样滚动页面时，结果就会显示出来。我无法滚动页面来查看结果。我尝试了多种方法，如send_keys： for i in range(0,15): self.driver.find_element_by_id("doctor-matrix-section").send_keys(Keys.PAGE_DOWN) time.sleep(1) print &#

浏览 5提问于2015-09-24得票数 5

4回答

使用Scrapy进行Python数据抓取

python、python-2.7、web-scraping、scrapy

我想从一个网站上有TextFields，按钮等抓取数据。我的要求是填写文本字段并提交表单以获得结果，然后从结果页面中抓取数据点。我想知道Scrapy是否有这个功能，或者是否有人可以推荐一个Python库来完成这个任务？ (编辑) 我想从下面的网站上抓取数据：我的要求是从ComboBoxes中选择值并单击search按钮，然后从结果页面中抓取数据点。附注:我正在使用selenium Firefox驱动程序从其他网站抓取数据，但这个解决方案并不好，因为selenium Firefox驱动程序依赖于Firefox的EXE，即在运行刮板之前必须安装Firefox。火狐有时会在执行刮板的过程

浏览 1提问于2013-05-28得票数 8

回答已采纳

3回答

如何使selenium在页面加载后对页面进行刮擦

python、selenium、web-scraping、scrapy、macos-catalina

我使用scrapy来抓取所有的链接，用selenium抓取所有的页面。Selenium抓取了大部分页面，但在加载页面时留下了几个页面。我尝试了timeout()，但似乎不起作用，然后我尝试了使用execute_script driver.execute_script(“返回document.readyState==”完成“；”) 这似乎也不起作用，然后我试着用expected_conditions ( WebDriverWait.until(expected_conditions.execute_script("return document.readyState==“完全”；

浏览 4提问于2020-08-23得票数 0

0回答

Selenium/Phantomjs:如何判断是否进行了导航？

python、selenium、web-scraping、phantomjs

我尝试使用Selenium/PhantomJS/Python来编写一个刮板程序。我使用'get‘方法打开一个URL，页面加载超时几秒钟。但有时我发现'get‘方法并不能打开URL。因此，当我解析网页时，我得到的结果与上一次抓取的结果相同。在这种情况下，当我打开一个URL时，我需要判断该页面是导航的还是停留在同一页面中。这样做的正确方法是什么？

浏览 10提问于2016-12-24得票数 0

1回答

使用内部滚动条滚动

python-3.x、selenium-chromedriver

我有一个网站，我正在抓取，需要滚动水平(到最右边)和垂直(到最底部)的一个网页上的表格。我使用的是Python3、Selenium和Chrome Driver。我可以抓取表格数据，但它只能抓取我网页上可见的内容。当我检查网页时，我找不到任何滚动信息。通过在线搜索，我看到了使用Selenium进行滚动的各种方法，甚至可以通过xpath查找，然后以这种方式进行滚动。到目前为止，我没有任何幸运的选择，但可能做错了。这是我尝试过的一个例子，但它不起作用： html=browser.find_element_by_xpath('/html/body/form/div[3]/div[2]/d

浏览 0提问于2019-10-26得票数 1

2回答

在Python中使用Selenium元素进行列表理解，而不使用tweet

python、selenium、selenium-webdriver、webdriver、webdriverwait

我正在使用Selenium抓取Twitter页面，抓取的tweet存储在列表变量tweets中。我可以正常地遍历它们，并使用以下命令从其中提取文本： for tweet in tweets: print(tweet.text) 但是，当我尝试使用列表理解时， [tweet.text for tweet in tweets] 我得到了一个StaleElementReferenceException StaleElementReferenceException: Message: The element reference of [object String] "b22c079f-

浏览 0提问于2020-09-24得票数 0

1回答

Selenium Python中的同步请求

python、python-3.x、selenium-webdriver

我正在为一个爱好项目学习网络抓取(在python中使用Selenium )。我在试着获取产品清单上的信息。大约有100个网页，我将依次加载每个网页，处理每个页面中的数据，然后转移到下一个页面。这个过程需要超过5分钟，主要的瓶颈是每个页面的加载时间。因为我只是从书页上“阅读”(没有和他们中的任何人互动).我想知道是否有可能一起发送所有页面的请求(而不是等待一个页面加载，然后请求下一个页面)，并在数据到达时进行处理。 PS:请告诉我是否有其他的解决方案来减少装载时间。

浏览 4提问于2020-09-25得票数 0

回答已采纳

1回答

用python抓取javascript驱动的“下一步”按钮的麻烦

python、selenium、web-scraping

我正在尝试抓取一个网站，以学习python和网络抓取。特别是，我试图在这个页面上抓取足球数据：我的主要问题是如何抓取主数据表的所有页面，而不仅仅是第一个页面。我正在尝试使用selenium并分析当我点击“下一步”按钮时我的浏览器发送的请求，但我遇到了一些问题。感谢您的关注。

浏览 2提问于2018-08-30得票数 1

1回答

无法在启用javascript的情况下在heroku上运行无头硒

java、google-chrome、selenium-webdriver、heroku、google-chrome-headless

我试图在Heroku上的Spring应用程序中运行无头selenium来抓取一些twitter数据。以下2个构建包包含在我的Heroku应用程序中： 1) 2) 这两个内置包是为在heroku应用程序中运行无头selenium而设计的。selenium脚本输入我的twitter登录数据并点击登录按钮后，我的脚本就会崩溃。为什么？我查看了页面源代码，并从twitter中找到了以下提示：我们在浏览器中检测到JavaScript已被禁用。您想继续使用遗留的Twitter吗？显然，javascript似乎被禁用了，这是非常糟糕的。我不想在遗留模式下继续(没有javascript)。初始化

浏览 2提问于2020-04-13得票数 4