Selenium:从网站抓取文本会输出错误的内容

Selenium是一个自动化测试工具，主要用于模拟用户在网页上的操作，如点击、输入等，以及抓取网页上的数据。它支持多种编程语言，包括Java、Python、C#等，可以在不同的浏览器上运行。

对于从网站抓取文本输出错误的问题，可能有以下几个原因和解决方法：

定位元素错误：Selenium通过选择器来定位网页上的元素，如id、class、XPath等。如果选择器选择的元素不准确或者网页结构发生变化，就会导致抓取的文本错误。解决方法是检查选择器是否正确，并且确保网页结构稳定。
动态加载内容：有些网页会使用JavaScript动态加载内容，而Selenium默认只会抓取初始加载的内容。如果需要抓取动态加载的内容，可以使用Selenium的等待机制，等待特定的元素出现后再进行抓取。
网页渲染问题：Selenium模拟浏览器操作，但是它并不是一个完整的浏览器，可能无法完全模拟浏览器的渲染效果。如果网页使用了复杂的CSS样式或者JavaScript效果，可能导致抓取的文本与实际显示的文本不一致。解决方法是尝试使用不同的浏览器驱动，或者使用其他工具进行网页渲染。
反爬虫机制：有些网站为了防止被爬虫抓取数据，会设置反爬虫机制，如验证码、IP封禁等。如果遇到这种情况，可以尝试使用Selenium的验证码识别功能，或者使用代理IP来绕过封禁。

总之，从网站抓取文本输出错误的问题可能有多种原因，需要仔细分析具体情况并采取相应的解决方法。在使用Selenium进行网页抓取时，建议先对网页结构进行分析，确保选择器的准确性，并且注意处理动态加载内容和网页渲染的情况。如果遇到反爬虫机制，可以尝试使用相关功能进行处理。

使用Scrapy进行Python数据抓取

、、、

我想从一个网站上有TextFields，按钮等抓取数据。我的要求是填写文本字段并提交表单以获得结果，然后从结果页面中抓取数据点。我想知道Scrapy是否有这个功能，或者是否有人可以推荐一个Python库来完成这个任务？ (编辑) 我想从下面的网站上抓取数据：我的要求是从ComboBoxes中选择值并单击search按钮，然后从结果页面中抓取数据点。附注:我正在使用selenium Firefox驱动程序从其他网站抓取数据，但这个解决方案并不好，因为selenium Firefox驱动程序依赖于Firefox的EXE，即在运行刮板之前必须安装Firefox。火狐有时会在执行刮板的过程

浏览 1提问于2013-05-28得票数 8

回答已采纳

2回答

下面的selenium代码包含xpath错误，但是它给出了语法错误，没有输出，可以解决吗？

、、、、

连续语法错误，没有输出在我的网页刮擦程序。我的xpath是正确的，因为它指向正确的名称，但是我没有得到任何输出。网站是。有人能帮忙吗？我有python 3.4.4，我正在使用visual studio代码作为GUI。我正试图从宜家网站上获得项目名称，作为一个网络抓取代码。但我一直在犯错误。有人能帮忙吗？ import selenium from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait

浏览 1提问于2019-03-29得票数 0

回答已采纳

1回答

错误: httplib.py in_read_status BadStatusLine (行)BadStatusLine on ubuntu

、、、、

我在python中使用selenium抓取一个站点，在windows上运行相同的脚本，但在ubuntu16.04中运行相同的脚本会引发错误： File "/usr/lib/python2.7/httplib.py", line 402, in_read_status raise BadStatusLine(line) BadStatusLine: '' 有人能告诉我为什么会产生这个错误吗？谢谢:)

浏览 1提问于2018-07-04得票数 2

2回答

Selenium:从Python中的<script type>标记获取可变数据

、、

所以我试着用selenium从一个网站上抓取数据，因为selenium和web抓取仍然是新的，我被卡住了。我想刮一下<script type>标签下的一些数据，标签如下所示： ... ... <script type="text/javascript"> var myData_1 = {"name" : ..... }; var myData_2 = {......}; var myData_id = 4565843; var myData_mapping = {.....}; </script> ...

浏览 0提问于2020-08-19得票数 4

回答已采纳

1回答

如何在python语言中使用selenium和chromedriver抓取此页面？

我正在尝试使用selenium和chromedriver从网站“”中抓取数据。当我运行代码时，chromedriver成功地输入了url，但无法加载页面，显示了一个空白页面。我尝试将目标网站切换到google.com，但抓取成功。我的结论是目标网站服务器检测到selenium并拒绝发送回数据。那么如何在Python语言中使用selenium和chromedriver从网站抓取数据呢？我是一个Python初学者，感谢您的帮助。下面是我的简单代码： from selenium import webdriver my_driver_path = r"C:\python chrome driv

浏览 0提问于2020-05-29得票数 0

1回答

Selenium和BeautifulSoup -尝试从第1页抓取内容，然后转到第2页，依此类推

、、、

我很难理解如何抓取我想要的所有页面内容。我可以从第一页获取我想要的信息，但获得下15页是一个挑战。我正在使用selenium和chrome webdriver从这个网站获取信息。

浏览 3提问于2020-02-17得票数 0

1回答

Python/selenium网络抓取

、

对于data_links中的链接:driver.get(链接) review_dict = {} # get the size of company size = driver.find_element_by_xpath('//[@id="EmpBasicInfo"]//span') #位置=？也需要得到这一部分。我担心的是：我正在尝试抓取一个网站。我正在使用selenium/python从跨度中剔除“501to1000名员工”和"Biotech &制药“，但我无法使用xpath.I从网站中提取文本元素。我尝试过getText，获取所有

浏览 10提问于2017-07-30得票数 1

回答已采纳

2回答

Python - InvalidArgumentException

、、

我正在尝试开始网络抓取，但每当我尝试访问URL时，都会收到一条错误消息。我的代码如下： from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Chrome() driver.get('www.python.org') 这将打开一个新的Chrome窗口，但它的作用仅此而已。我得到的错误消息如下： InvalidArgumentException: invalid argument (Session info: chrome=8

浏览 203提问于2020-03-31得票数 0

回答已采纳

1回答

如何让我的python selenium项目在heroku上工作？

、、、

所以我有一个selenium项目，它在本地运行得很好，它只是一个从网站上抓取数据的脚本。我成功地将脚本部署到heroku中，但当我尝试激活它时，它显示了这些错误。它会给出一个错误，即它找不到一些应该从网站上抓取的xpath元素。这是它显示的错误引发按钮(Message，screen，stacktrace) selenium.common.exceptions.NoSuchElementException:消息:没有这样的元素:找不到元素：{“exception_class”：“xpath”，“selector”：“//exception_class@class=‘_cs_exception

浏览 2提问于2021-06-01得票数 0

2回答

如何打开常规铬，我们使用selenium进行手动浏览。

、、、

我是自动从网站的数据抓取。现在的网站只需要第一次登录。之后，如果你打开网站，它已经登录了。但是，当我使用selenium访问网站时，每次我通过selenium访问它时，它都会请求登录。我如何使用常规的chrome浏览器，其中它已经登录，使用selenium？或者还有别的选择吗？

浏览 10提问于2021-12-09得票数 1

4回答

Selenium的html不完整

、、、

嗨，我想知道为什么我有一个特定页面的url，并像这样使用selenium： webdriver.get(url) webdriver.page_source selenium提供的源代码缺少从浏览器检查页面时所包含的元素？这是网站保护自己不被抓取的一种方式吗？

浏览 3提问于2021-07-08得票数 0

1回答

两个不同页面的相同URL

、

我正在尝试从Sofascore网站(我使用python & Selenium)抓取特定匹配的数据。我可以先去，然后用url 点击热刺-阿森纳的比赛。但是，当我从浏览器中直接输入这个链接时，我会到达一个完全不同的页面，为以后的比赛做准备。是否有一种方法来区分这2页，以便能够刮除原始匹配？谢谢

浏览 8提问于2022-08-08得票数 0

3回答

用于web抓取的Selenium与BeautifulSoup

、、、

我正在使用Python从一个网站上抓取内容。首先，我在Python上使用了BeautifulSoup和Mechanize，但我看到网站上有一个通过JavaScript创建内容的按钮，所以我决定使用Selenium。既然我可以通过像driver.find_element_by_xpath这样的方法使用Selenium查找元素并获取它们的内容，那么当我可以使用Selenium做任何事情时，还有什么理由使用BeautifulSoup呢？在本例中，我需要使用Selenium来单击JavaScript按钮，所以使用Selenium进行解析更好，还是应该同时使用Selenium和Beautiful S

浏览 1提问于2013-07-03得票数 53

回答已采纳

2回答

在没有Selenium Webdriver的情况下抓取焦点

、

我正在使用Selenium自动化一个网站。首先，我用C#打开主网站。然后，我手动单击以从主站点打开新窗口。现在，我想要抓取这些新窗口的数据。这不是问题。问题在于，Selenium似乎需要一个窗口来聚焦来刮掉它。在抓取之前，我目前使用SwitchTo方法。当您切换时，新窗口会弹出到前面，并从其他窗口窃取焦点。有没有一种方法可以在不聚焦的情况下抓取窗口？

浏览 0提问于2017-12-04得票数 1

1回答

我如何阻止所有的硒机器人？

、、、、

我如何阻止所有的硒机器人？我想阻止所有的selenium项目。解释：我有非常大的网站，流媒体，动画等。每月至少3000万客和会员。一些网站从我们的网站视频链接抓取。用硒bot 在我们做检查和阻止，用户代理，速率限制，会话id检查许多机器人被阻止，但现在有人仍然抓取，改变代理IP，会话id再次发送的抓取请求。所以他/她绕过了我们的利率限制等追踪器。我如何阻止所有的硒机器人？我想阻止所有的selenium项目。

浏览 3提问于2021-01-09得票数 2

1回答

用硒擦伤

、、

我正试图从网站中抓取所有录制的事件表。我使用的是刮擦蜘蛛，但是由于它是动态加载的，所以不可能得到该表。我试图使用selenium，但是没有结果，没有加载表，我得到了相同的静态html页面。任何帮助都将不胜感激。

浏览 1提问于2017-10-25得票数 0

回答已采纳

1回答

从WebElement文本中删除特定单词

、、

你好，我正在使用selenium抓取一个网站，它有一个名为view的按钮，每当我刮擦它时，它都会显示输出中按钮的文本，因为它位于我从类似的<div>中抓取数据的相同的下面。 <div class="results"> <p>example</p> <a href="www.example.com" rel="nofollow" class="search-result__button button button_s">View Profile</a>

浏览 3提问于2020-02-04得票数 0

回答已采纳

3回答

使用Selenium Webdriver PHP选择元素？

、、

我希望使用Selenium Webdriver PHP将许多页面元素存储在一个变量和循环中。例如： < cite > Name 1 < /cite > < cite > Name 2 < /cite > <cite > Name 3< /cite > 我使用了下面的代码，但是它没有给我上面的结果(比如Name 1)等等。我如何使用Selenium Webdriver从元素中抓取文本。 $users = $driver->findElements( WebDriverBy::xpath('//cite&#

浏览 0提问于2013-10-22得票数 1

2回答

没有来自curl的错误消息

、

我想知道为什么下面的bash脚本会吞下错误消息。 #!/bin/sh set -eu LATEST=$(curl -s https://api.github.com/repos/dnote-io/cli/tags | grep -Eo '"name": "v\d*\.\d*\.\d*",' | head -n 1 | sed 's/[," ]//g' | cut -d ':' -f 2) if [ -z $LATEST ]; then echo "Error fetching lat

浏览 0提问于2018-02-08得票数 1

回答已采纳

2回答

查找用于单击和查找文本的xpath

、、

NoSuchElementException:错误:无法定位元素：{“”：“xpath”，“选择器”：“//td@class=‘C($primaryColor)W(51%)’}”(会话信息: chrome=77.0.3865.120) 我的守则如下： from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Chrome('/Users/ryanyee/Desktop/Python Code/Selenium/Launch Chrome/c

浏览 6提问于2019-10-17得票数 0

回答已采纳

1回答

如何并行运行Selenium-scrapy

、、、、

我正在尝试使用scrapy和selenium来抓取javascript网站。我使用selenium和一个chrome驱动程序打开javascript网站，使用scrapy从当前页面抓取到不同列表的所有链接，并将它们存储在一个列表中(到目前为止，这是最好的方法，因为尝试使用seleniumRequest跟踪链接并回调到解析新页面函数已经导致了很多错误)。然后，我循环遍历URL列表，在selenium驱动程序中打开它们，并从页面中抓取信息。到目前为止，这个网站每分钟抓取16个页面，考虑到这个网站上的列表数量，这并不理想。理想情况下，我会让selenium驱动程序并行打开链接，如下所示： How

浏览 36提问于2021-02-05得票数 0

回答已采纳

2回答

我正在尝试通过网络抓取http://angel.co/bloomfire

、、、、

我正在尝试从一个网站中抓取数据 import requests from bs4 import BeautifulSoup res = requests.get('https://angel.co/pen-io') soup = BeautifulSoup(res.content, 'html.parser') print(soup.prettify()) 这将打印标题标签为“找不到页面- 404 - AngelList”。在not浏览器中，网站运行良好，但其源代码与我的python脚本的输出不同。我还将selenium与phantomjs一起使用，但它显示了

浏览 1提问于2017-09-06得票数 1

1回答

即使使用Selenium，find_all也不能找到所有的东西

、、

我已经看了stackoverflow上关于美丽汤的大部分问题，只从网站上抓取了一半的数据，但到目前为止还没有一个有效。我已经尝试将功能更改为lxml或html5lib等。我也尝试使用selenium，现在我尝试使用selenium向下滚动网站，使用selenium加载网站上的所有内容，并使用漂亮的汤来抓取数据，但当需要超过100个项目时，它只抓取16个项目。我已经在下面附上了我的代码。我正在尝试抓取的网站的链接： from selenium import webdriver from selenium.webdriver.common import timeouts from seleniu

浏览 0提问于2021-07-04得票数 0

1回答

如何捕获仅由selenium引发的错误？

、、、

我正在使用selenium进行web抓取，有时在网站上会出现意外的警报，这会破坏脚本。警报是一种错误；有时，页面没有正确加载，selenium由于服务器性能问题而找不到元素。因此，我正在考虑添加一个try/run块，这样每当selenium通过错误时，它就会被捕获，脚本就会被重新运行。但我能够捕捉到特定于selenium的错误。如何捕获仅由selenium引发的错误？

浏览 6提问于2022-01-30得票数 -1

1回答

如何在点击更多按钮后抓取网站数据

、、、

我正在尝试使用BS4 + selenium学习web抓取。网站链接为评论文本具有更大的跨度，单击该跨度时，使用AJAX将更多的文本加载到同一div中。但是我的代码在selenium单击More按钮之前输出了评论文本。如何使用selenium等待抓取更多按钮 from selenium import webdriver from bs4 import BeautifulSoup def openUrl(link): driver = webdriver.Firefox() driver.get(link) elem1 = driver.find_ele

浏览 4提问于2017-06-20得票数 0

2回答

BeautifulSoup无法按类找到HTML元素

、、、

这是我试图用Python刮的网站：我想使用‘srp-结果srp-列表清除’类访问'ul‘元素。这就是我对请求和BeautifulSoup所做的尝试： from bs4 import BeautifulSoup import requests url = 'https://www.ebay.de/sch/i.html?_from=R40&_nkw=iphone+8&_sacat=0&LH_Sold=1&LH_Complete=1&rt=nc&LH_ItemCondition=3000' r = requests.g

浏览 3提问于2020-06-21得票数 0

回答已采纳

1回答

爬网时设置区域设置/区域

、、

我正在尝试从亚马逊网络服务机器上的网站抓取信息。这台机器，在美国托管，给我的产品在美元的价格。当我在本地机器上爬行时，我如何获得INR中的价格。我通常使用Scrapy抓取信息，但我对使用Selenium或任何其他工具进行同样的操作持开放态度。我尝试使用selenium并将浏览器区域设置设置为"en-IN“，但无济于事。

浏览 0提问于2016-02-06得票数 0

3回答

使用selenium和python捕获AJAX响应

、、

我点击Firefox中的一个链接，网页使用javascript发送一个请求，然后服务器发送某种类型的响应，其中包括网站地址。因此，这个新网站将在一个新窗口中打开。链接后面的html代码是(我省略了初始和最后的<span>标记)： > class="taLnk hvrIE6" > onclick="ta.trackEventOnPage('AttractionContactInfo', 'Website', > 2316062, 1); ta.util.cookie.setPIDCookie(15190); &

浏览 22提问于2014-10-21得票数 19

回答已采纳

1回答

从网站上的表单中抓取动态数据

、、、

我正在尝试从一个网站上的表单中抓取一个动态的选项列表。该网站的工作方式是，当您在查询框中输入一些数据时，它会将这些数据作为关键字从自己的数据库中进行搜索，并相应地生成结果。我试图通过使用selenium抓取来提取完整的列表。最初在inspect element部分，我有：这就是当我们在表单中写一些关键字时会发生的变化： for i in range(1,100): try: depart.append(browser.find_elements_by_class_name("accessabilityBar textIndent"

浏览 2提问于2018-05-14得票数 0

1回答

在硒中使用无头铬时出错

、、、

我想在网站上刮点东西。为了在网站上获得动态内容，我转到selenium。但是当我尝试使用无头Chrome时，终端每次打开页面时都会输出以下警告/错误消息。 DevTools listening on ws://127.0.0.1:9234/devtools/browser/3b04bcfa-0f81-4131-813f-9db6f63711fa [1002/145548.271:ERROR:gpu_init.cc(453)] Passthrough is not supported, GL is swiftshader, ANGLE is [1002/145548.391:ERROR:comm

浏览 2提问于2021-10-02得票数 0

4回答

Selenium Webdriver的替代方案

、、

我使用C#和Python的Selenium Webdriver从网站获取数据元素，但web抓取的速度非常慢。抓取35000个数据表花了我大约1.5天的时间。使用Selenium Webdriver，我可以执行Javascript来获取Java元素。有没有一些库可以不需要像Webdriver这样的东西来在网页上执行Javascript来检索元素，并且能够点击元素？或者有没有比硒更快的替代品？

浏览 5提问于2015-04-16得票数 13

2回答

使用Python从控制台捕获信息

、、

我正在创建一个脚本，在这个脚本中，我试图从网站上专门抓取m4a文件。目前，我正在使用BS4和selenium来实现此目的。我在获取信息时遇到了一些麻烦。文件链接不在页面的HTML源中。相反，我只能在控制台中找到它。我尝试获取的链接在这个标记为"audio_url_m4a:“的图像()中。下面是我正在使用的一些示例代码： from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities\ d = DesiredCapabiliti

浏览 1提问于2021-01-22得票数 1

1回答

带有刮刀的Web爬行器，使用木偶和刮除器

、、、、

请注意，我是一个新手，当涉及到网络技术。我必须抓取和刮相当多的网站，这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取，使用Selenium来抓取常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript/html页面的区别。等待回应。

浏览 3提问于2019-12-04得票数 0

回答已采纳

1回答

如何分离xpath语句的输出

、、

我是Python和Selenium的新手，我是从网站上抓取信息的。有些项没有适当的div类来提供正常的脚本功能。我需要分离xpath语句的输出，以便不包含h2部件中的文本值。我已经重写了循环体和xpath语句。 elif driver.find_element_by_xpath("//span[@class='italic']").text == "Chapter": test = driver.find_element_by_xpath("//a[@class='strong']")

浏览 0提问于2019-04-29得票数 2

回答已采纳

1回答

Python Selenium 'WebDriver‘对象没有属性错误

、、、、

我正在尝试从一个中文网站上抓取一些javascript生成的内容。我使用Selenium (和Python)，因为我不能直接抓取javascript内容。 # -*- coding: utf-8 -*- from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.selenium import selenium import time import urllib2 import httplib import urllib import re import base6

浏览 0提问于2012-10-16得票数 6

回答已采纳

1回答

Apache Nutch 2.3.1网站主页处理

、、

我已经配置了Nutch 2.3.1来抓取一些新闻网站。由于网站主页将在一天后发生变化，这就是为什么我想以一些不同的方式处理主页，以便主页只抓取主要类别，而不是文本，因为文本会在一段时间后发生变化(我在谷歌中观察到了类似的事情)。对于页面的其余部分，它可以正常工作(抓取文本等)

浏览 1提问于2018-03-12得票数 0

1回答

从下拉列表中抓取值的列表

、、

我正在尝试从网站https://www.goodjobsfirst.org/violation-tracker的下拉列表中抓取公司列表，该下拉列表是母公司之一。我正在运行以下代码 from selenium.webdriver.support.ui import Select from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions

浏览 18提问于2020-06-10得票数 0

回答已采纳

3回答

Selenium错误的选择器导致没有输出

、、、

我正在尝试抓取这个网站的酒店房间的名称和房间的价格。我正在使用Selenium来尝试抓取这些数据，但是在我假设我使用了错误的选择器/XPATH之后，我一直没有得到任何结果。有什么方法可以识别正确的XPATH/div类/选择器吗？我觉得我选择了正确的方法，但是没有输出。 from re import sub from decimal import Decimal from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.suppor

浏览 1提问于2021-04-29得票数 0

1回答

如何背靠背运行多个Selenium测试

、

我正在尝试使用Selenium和Python执行动态web抓取。我正在尝试抓取的网站有一个输入，大约600个位置可以选择。每个位置都有不同的设施。我想要抓取设施的名称以及每个位置的地址。我有一个excel文件中的位置列表。我使用Pandas导入这些位置，然后尝试执行for循环，遍历每个位置，在输入中输入位置，然后抓取下面输出的设施。但是，我的for循环并没有像预期的那样工作，所以每次我运行脚本时，Selenium驱动程序都会打开，并且我会按照第一个位置的预期来清理设施。但在那之后什么也没有发生。我的目标是让脚本继续运行，要么打开新的Selenium浏览器，要么在输入中输入一个新位置，以抓

浏览 16提问于2019-07-10得票数 1

2回答

用Selenium，BS抓取Java驱动的站点

、、、、

我是Python的新手我正在尝试从它的网站获取打印机计数器值。这个网站是用Javascript写的，我什么也弄不出来。站点元素看起来像这样，我需要突出显示的元素的值。 inspect elements 我试过使用selenium，requests，webdriver，漂亮的汤。尝试了所有的webdriver.find方法等。我的最新代码看起来像这样，我尝试了一堆其他的东西，但什么都没有得到。 from bs4 import BeautifulSoup import requests from selenium import webdriver #url = requests.ge

浏览 14提问于2019-02-01得票数 1

回答已采纳

1回答

如何在点击按钮后抓取数据

、、

我试着用漂亮的汤从网站上抓取数据，但要抓取所有内容，我必须点击按钮 <button class="show-more">view all 102 items</button> 加载每一项。我听说可以用selenium来完成，但这意味着我必须用脚本打开浏览器，然后抓取数据。有没有其他方法来解决这个问题。

浏览 16提问于2019-06-10得票数 0

2回答

UTF8_encode后的奇怪字符

、、、

当我尝试从windows-1256更改为utf8时，文本会变成这样 ÇáÑßä ÇáÚÇã ááãæÇÖíÚ ÇáÚÇãÉ 我正在尝试改变我用file_get_contents抓取的网页的编码。 header('Content-Type: text/html; charset=utf-8');

浏览 2提问于2013-01-30得票数 0

回答已采纳

1回答

lxml在从元素检索文本时不考虑css样式

、、、、

我正在测试selenium + chrome和requests + lxml的一些抓取目的。我有兴趣收到一些短信。使用selenium + chrome时，我可以执行以下操作： element = self.driver.find_element_by_xpath(xpath) return element.text.strip() 它将返回与xpath选择器匹配的元素的文本。文本将出现在网站上，这意味着如果测试本身是小写的，但它有一个text-transform: uppercase，那么这段代码的输出将是一个大写的文本。如果我对lxml执行相同的操作，如下所示： elements =

浏览 0提问于2019-01-12得票数 1

3回答

抓取每条推文回复的想法

、

嗨，我刚开始从推特上抓取数据，我一直在做一个收集推文和回复的项目。我使用twitter API抓取了tweet，但我无法抓取他们的回复。有什么建议吗？

浏览 3提问于2021-01-14得票数 0

2回答

使用Selenium和Django的DigitalOcean (gunicorn/nginx)的502个坏网关

、、、、

我有一个使用Selenium和Django的DigitalOcean网络应用程序(gunicorn/nginx)。我正在尝试从3个网站抓取数据，并将这些数据保存在数据库中，但如果处理时间超过60秒，则会出现此错误 502 Bad Gateway nginx/1.14.0 (Ubuntu) 如何延长或禁用nginx的响应等待时间？

浏览 10提问于2020-02-28得票数 2

回答已采纳

1回答

如何从网站上抓取cgi python脚本？

、、、

我刚刚开始学习使用selenium和mechanize进行网络抓取，并取得了很好的效果。我想知道是否有可能从一个网站上抓取一个cgi python脚本，这样我就可以离线复制网站的功能。下面是一个示例脚本。当我尝试抓取这个文件时，我得到了脚本的html输出，而不是脚本本身。这就是： <html> <head> <title>Hello Word - First CGI Program</title> </head> <body> <h2>Hello Word! This is my first CGI pr

浏览 1提问于2013-11-21得票数 0

2回答

如何使用Python和Selenium提取更改的类名？

、

我正在用Python和Selenium测试我的网页抓取技巧，我找到了一个按钮，它的"id“和”成员“都在变化，而且每次都会发生变化。其他的一切都和所有的按钮一样。唯一的问题是 <button aria-label="View only People results" id="ember697" class="search-vertical-filter__filter-item-button artdeco-button artdeco-button--muted artdeco-button--2 artdeco-button--tert

浏览 1提问于2020-03-08得票数 0

回答已采纳

1回答

Python请求只拉出一半有意图的标签。

、、、

我正试着刮一个网站，把每个警长的名字和县的名字都拉出来。我正在使用chrome中的devtools来识别定位该信息所需的HTML标记。 import pandas as pd import numpy as np from bs4 import BeautifulSoup URL = 'https://oregonsheriffs.org/about-ossa/meet-your-sheriffs' page = requests.get(URL) soup = BeautifulSoup(page.content, 'html.parser') sheri

浏览 0提问于2020-06-08得票数 2

回答已采纳

2回答

抓取时访问被拒绝

、、

我想创建一个脚本来继续访问并抓取内容，但不知何故，当我运行该脚本时，访问被拒绝。代码如下： from urllib import urlopen from bs4 import BeautifulSoup as BS url = urlopen('https://www.size.co.uk/') print BS(url, 'lxml') 输出为 <html><head> <title>Access Denied</title> </head><body> <h1>Access

浏览 14提问于2017-07-02得票数 2

回答已采纳

1回答

R selenium webdriver即使在等待并向下滚动之后也不加载元素

、、

我正在尝试使用selenium webdriver包为R中的页面设计一个抓取器，但是我想要抓取的页面部分无法加载，无论我等待了多长时间。这可能与javascript有关，我承认对它一无所知。我尝试强制它向下滚动以加载元素(在本例中是一个表)，但没有效果。它可以在普通浏览器中正常加载。这就像是发生了这种情况的几个网站，所以我想我应该打开我的stackoverflow樱桃，向专家请教。对不起，我没有reprex，因为我不知道问题是从哪里来的！指向该页面的链接为 -黄色突出显示的区域是表应该加载的位置。火狐中显示的感谢您的阅读！

浏览 0提问于2020-03-19得票数 1