无法使用python、selenium和美汤抓取评论页面_我不能使用selenium和美汤抓取表数据_如何使用Python抓取多个评论页面？ - 腾讯云开发者社区

selenium、selenium-webdriver、beautifulsoup、python-requests、python-requests-html

我正试图分析chrome://settings的html，并创建一个弹出窗口，并将切换设置作为浮动侧栏。我似乎无法链接到chrome://设置，因为它不是URL格式，我尝试使用requests、selenium和美妙汤。如何从诸如chrome://设置之类的内部页面访问html文档？

浏览 3提问于2022-02-11得票数 1

回答已采纳

2回答

用python抓取aspx站点

python、asp.net、beautifulsoup、urllib2、urllib

我想下载最高法院的案例。下面是我正在尝试的代码： page = requests.get('http://judis.nic.in/supremecourt/Chrseq.aspx').text 我正在获取页面中的以下内容： u'<html><p><hr></hr></p><b><center>The Problem may be due to 500 Server Error/404 Page Not Found.Please contact your system administr

浏览 0提问于2017-09-01得票数 0

1回答

无法检索链接和子链接

python、elasticsearch、web-scraping、beautifulsoup

我是新的python和美丽的汤，需要网络抓取所有的链接索引它在弹性搜索，我使用以下代码来获得所有的链接/内的信息页面的子链接，但无法检索它。 from bs4 import BeautifulSoup try: import urllib.request as urllib2 except ImportError: import urllib2 urlFile = urllib2.urlopen("http://pubs.vmware.com/sddc-mgr-12/index.jsp#com.vmware.evosddc.via.doc_211/GUID-

浏览 8提问于2017-02-28得票数 0

2回答

如何使用selenium web驱动程序托管由web抓取支持的后端服务？

python、selenium、selenium-webdriver、flask、web-scraping

因此，我正在开发一个项目来抓取一个网站并将数据传递给用户，但是我正在使用带有python/flask的selenium/selenium web驱动程序。我本来打算用漂亮的汤，但我抓取的网站需要在页面上进行一些交互。我有一切工作与刮刀，我只是试图找出一种方法，使这项工作，如果我想要托管在一个网站上使用的服务，如heroku。目前Selenium正在打开一个chrome浏览器，并以这种方式浏览页面。有没有一种聪明的方法可以不用打开浏览器就可以做到这一点，并且在使用某些服务托管时可以无缝工作？

浏览 20提问于2020-05-03得票数 1

1回答

如何处理硒中406个响应？

python、web-scraping、selenium-chromedriver

我正试着用Selenium搜索一个网站。我能打开大部分的网站。但是有一些网站给了我406的回复，是不能接受的。而不是接收实际的网站，我只得到一个406不可接受的消息在浏览器中。我目前正在使用以下Python代码(使用Mac)： from selenium import webdriver DRIVER_PATH = '/Users/User123/Downloads/chromedriver 2' driver = webdriver.Chrome(executable_path=DRIVER_PATH) driver.get('https://www.WEBSITE

浏览 1提问于2022-01-06得票数 0

回答已采纳

1回答

如何使用scrapy或selenium抓取动态页面？

javascript、python、html、parsing、screen-scraping

我正在尝试抓取web动态页面，但使用scrapy时，我不能检索所有信息，因为我想要的信息是动态的。我试着使用Selenium，但与Scrapy不同的是，你不能指定头部，网站阻止了我。(我不能说出这个网站的名字，因为抓取是非法的，但它是一个著名的旅游元搜索引擎...)。我有一个带有验证码解算器的页面(用脚本很难解决重新验证码)，因为网站会检测到我是机器人。我想拥有所有的动态信息，并有权访问网站，但不可能与selenium和scrapy没有给我所有我想要的信息，我认为这是因为当scrapy阅读它时页面没有完全加载。

浏览 23提问于2019-06-13得票数 0

1回答

为文件命名提取安全格式的网页标题

python、selenium、web-scraping、beautifulsoup、automation

使用Python，我想从网页中抓取一些信息，并将信息保存到一个名为.txt文件中，这个文件使用的是页面的标题。不幸的是，许多页面包含无法在文件名中使用的特殊字符，因此理想情况下，我希望从浏览器中提取文件/保存的标题。是否可以通过BeautifulSoup或Selenium来实现这一目标？我可以用“汤”来获得页面标题，然后清理它，但是如果有一种更有效的方法来获得浏览器清理的标题，我很想知道怎么做。编辑：到目前为止，我已经在下面的代码中取得了一个可行的结果。我以YouTube为例，但如果可能的话，我更喜欢使用浏览器保存格式的通用页面标题检索。可能不存在，但总有希望。 import re

浏览 0提问于2022-10-02得票数 1

2回答

使用React和BeautifulSoup呈现的抓取元素

javascript、python、selenium、reactjs、beautifulsoup

我想用class="_1UoZlX“从这个特定页面- 的搜索结果中抓取锚链接。当我从页面创建一个汤时，我意识到搜索结果是使用React呈现的，因此我无法在页面源(或汤中)找到它们。这是我的密码 import requests from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdri

浏览 3提问于2016-12-26得票数 6

回答已采纳

2回答

如何使用“美丽的汤”和“熊猫”或任何其他方法从网站上获取结构化格式的表？

python、pandas、dataframe、web-scraping、beautifulsoup

我想从这个网站上刮表‘摘要语句持有指定的证券’--我尝试过使用selenium抓取数据，但是它都在一个列中，没有任何表，而且这个表没有唯一的标识符。如何使用熊猫和美丽汤，以结构化的格式或任何其他方法刮表。这是我想弄明白的代码，但没有成功。 import requests import pandas as pd headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0" } params = {

浏览 2提问于2020-09-23得票数 1

回答已采纳

1回答

Selenium:在不被重定向到页面的情况下单击时获取按钮的url

python、selenium、beautifulsoup、request

在抓取页面时，我尝试在不被重定向的情况下获得下一页。问题是这个按钮在html中没有下一个页面url，所以我不能直接用漂亮的汤或selenium获得它，只有单击： div_list = driver.find_element(by=By.CSS_SELECTOR,value='[class = "ma-NavigationPagination"]') nav_list = div_list.find_elements(by=By.TAG_NAME, value = "button") nav_list[-1].click() 上面的代码查找并单击按

浏览 8提问于2022-05-12得票数 1

回答已采纳

1回答

使用“请求”和“美丽汤”抓取时无法提取描述和评级

python、python-3.x、web-scraping、beautifulsoup

我是一个网络抓取的初学者，我是刮这个特定的网页，在那里我无法获取描述和评级通过我的python代码使用请求和美丽汤。对于上述url索引的其他页面，代码运行良好。当相同的代码在其他页面上工作时，无法在我的代码中找到错误。到目前为止，我在代码方面的进展是： from bs4 import BeautifulSoup import requests url="https://myanimelist.net/anime/394" source=requests.get(url) soup=BeautifulSoup(source.content,'lxml')

浏览 0提问于2018-12-13得票数 2

回答已采纳

2回答

从Selenium已经打开的网页中抓取BeautifulSoup

python、selenium、beautifulsoup

我想从不同的网页上抓取一个由Selenium打开的网页。我在一个使用Selenium的网站上输入了一个搜索词，这让我进入了一个新的页面。我的目标是在这个新页面上创建一道汤。但是，汤是从我输入搜索词的前一页创建的。请帮帮我！ from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Firefox() driver.get('http://www.ratestar.in/') i

浏览 46提问于2019-01-26得票数 2

回答已采纳

1回答

如何在python语言中使用selenium和chromedriver抓取此页面？

screen-scraping

我正在尝试使用selenium和chromedriver从网站“”中抓取数据。当我运行代码时，chromedriver成功地输入了url，但无法加载页面，显示了一个空白页面。我尝试将目标网站切换到google.com，但抓取成功。我的结论是目标网站服务器检测到selenium并拒绝发送回数据。那么如何在Python语言中使用selenium和chromedriver从网站抓取数据呢？我是一个Python初学者，感谢您的帮助。下面是我的简单代码： from selenium import webdriver my_driver_path = r"C:\python chrome driv

浏览 0提问于2020-05-29得票数 0

1回答

从网页中提取隐藏的电子邮件

python、selenium-webdriver、web-scraping

我想从这个网页中提取电子邮件：，我尝试了请求和美丽汤，但它们没有工作。我使用selenium创建了这段代码，但也不起作用： from selenium import webdriver u = "https://aiwa.ae/company/arad-building-material-trading" driver = webdriver.Chrome(executable_path=r"C:\chromedriver.exe") driver.get(u) driver.find_element_by_xpath('/html/body/div

浏览 2提问于2020-08-15得票数 0

回答已采纳

1回答

Python刮伤网站加载JS

javascript、python

总的来说，我对python和编程非常陌生，但为了提高我的知识，我已经注册了几门课程。在学习的时候，记住一个“目标”似乎是非常重要的，而我的目标之一就是成功地抓取和操作体育数据。我想从中抓取结果，但是看起来它是通过JS动态加载数据的：这里似乎有很多数据，结果可以追溯到20年前，再加上当天每个赛马场的多场比赛。据我所读，硒和美丽汤可能在这里提供了一些解决方案，但在我开始实验之前，我想向你们确认这个目标有多现实/它是否与网站如何构建数据和如何开始的一些指示相吻合？任何帮助都将是非常感谢的。谢谢

浏览 1提问于2018-03-19得票数 0

回答已采纳

1回答

如何使用机械化来清除HP打印机状态页？

python、screen-scraping、mechanize

状态页如下所示：你看到设备状态标题下面的文字了吗？这就是我想要刮掉的。导航到时，状态页将更新。我从页面源码中提取了以下内容： <form id="deviceStatusPage" method="post" action="this.LCDispatcher?nav=hp.DeviceStatus"> 我似乎不能理解它到底在做什么，所以很难制定出一个好的抓取策略。我相当确定解决方案将是微不足道的，但我似乎根本不能开始。我应该说我一直在玩机械化和美汤。前者似乎可以达到我想要的效果，但我不确定如何实现。

浏览 1提问于2012-02-05得票数 1

2回答

Selenium登录看起来很有效，但是BeautifulSoup输出显示了登录页面

python、selenium、beautifulsoup

我正试图用Python编写一个脚本来抓取我的梦幻足球联赛中的所有名册，但是你必须首先登录到ESPN。下面是我的代码。它看起来在运行时工作--也就是说，我看到登录页面出现，我看到它登录，然后页面关闭。然后，当我打印汤时，我没有看到任何团队名册。我将汤输出保存为html文件，以查看它是什么，它只是重定向我再次登录的页面。在尝试登录之前，我是否通过BS4加载页面？ import time from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.common

浏览 1提问于2018-09-18得票数 0

回答已采纳

1回答

如何使用Python抓取特定的ASP.NET页面？

python、asp.net、web-crawler

我想抓取一个ASP.NET网站，但是urls都是一样的，我如何使用python来抓取特定的页面呢？这里是我想爬的网站： (我用的是美丽的汤，urllib和python 3) 我应该得到哪些信息来区分一个页面和另一个页面？

浏览 4提问于2015-08-16得票数 0

回答已采纳

1回答

用python无源抓取iframes

python、selenium、web-scraping、beautifulsoup、python-requests

我正在尝试从以下html文件中抓取iFrame (id=“id=”)的内容：我试着使用selenium和漂亮的汤，但是代码仍然看不到iFrame中的元素。有没有一种有效的方法从这个html文件中抓取上述iFrame的内容(最好不使用selenium)？

浏览 3提问于2020-05-27得票数 0

回答已采纳

1回答

从使用Ajax请求的网站抓取数据

python、ajax、selenium、web-scraping、beautifulsoup

到目前为止，我已经做了一个从网站上抓取数据的程序，我用python、selenium和美丽汤制作了一个程序，当它想从像这样的网站的页面中刮取数据时，我必须点击一个名为"سابقه“的选项卡(顶部是سابقه)，然后网站使用Ajax请求获取数据，然后我循环遍历表，表有多个页面，所以我必须点击表下面的数字，然后再收集新的数据。我的问题是这个方法非常慢，因为我还必须从500页中收集数据，每页包含35个表。还有其他更快的方法吗?或者，如果解决方案在python中，那么在我的程序中激发Ajax请求并获得response.It的方法会更好。

浏览 3提问于2017-12-15得票数 0

回答已采纳

1回答

使用Python使用Javascript实现Web抓取页面

javascript、python、web、screen-scraping

我正在尝试使用Python抓取一个urls列表的网页。我可以使用Python和漂亮的汤来抓取第一个页面，但是如果url列表很长，它会使用下面的JavaScript继续到第二个页面。 href="javascript:__doPostBack('WQResultGridView'，‘第$2页’) 我不知道怎么才能看到第二页。

浏览 0提问于2013-12-05得票数 0

1回答

有没有一种方法可以让一个网站拥有不变的URL呢？

python、selenium、web、web-scraping、beautifulsoup

我正在尝试使用selenium和美丽的汤和python在the上抓取一个动态页面，并且能够抓取第一个页面。但是当我试图进入下一页时，url并没有改变，当我检查时，我也无法看到表单数据。有人能帮我吗？ import time from selenium import webdriver from parsel import Selector from bs4 import BeautifulSoup import random import re import csv import requests import pandas as pd companies = [] overview = [

浏览 3提问于2020-12-14得票数 0

回答已采纳

2回答

从初始加载时不可见的页面体中抓取数据

python、selenium、web-scraping、beautifulsoup

我试着用美丽的汤从网站刮数据。如果向下滚动到个人Play部分，单击"share and more > get table as csv“，就会出现表格数据的CSV表单。如果我检查这个CSV文本，我会发现它在<pre>标记中，并且有一个id "csv_all_plays“ 我正在尝试使用python包--漂亮汤--来抓取这些数据。我现在做的是 nfl_url = #the url I have linked above driver = webdriver.Chrome(executable_path=r'C:/path/to/chrome/driver

浏览 1提问于2019-06-19得票数 1

回答已采纳

3回答

Selenium正在返回错误没有这样的元素:无法找到该元素

selenium、selenium-chromedriver、findelement

我试图同时使用Selenium和美妙的汤在网上搜索乔布斯，我能够从作业中提取所有细节，但获得我使用了selenium的职务描述，但是当我试图找到职务描述Id时，它返回的是错误: selenium.common.exceptions.NoSuchElementException:消息: no这样的元素:无法定位元素：{“css选择器”，“选择器”：“id=”jobDecriptionText“”}}(会话信息: chrome=100.0.4896.75) 我使用了以下代码： for jobs in analyst_jobs: get_html = jobs.get_attribute('

浏览 6提问于2022-04-11得票数 0

2回答

不确定如何从使用selenium动态加载网页中获取元素

python、html、selenium、web-scraping

因此，我正在从Sephora抓取评论和皮肤类型，并遇到了一个问题，以确定如何从页面中获取元素。在您向下滚动页面之后，Sephora.com会动态地加载评论，所以我已经从漂亮的汤切换到Selenium来获得评论。评审没有ID，没有名称，也没有一个看起来稳定的CSS标识符。每次我试图通过从chrome或firefox复制它时，Xpath似乎都不会被识别出来。下面是我在chrome：中加载的受检查元素的HTML示例我迄今所作的努力： from selenium import webdriver from selenium.webdriver.common.keys import Keys d

浏览 4提问于2020-04-10得票数 0

1回答

无法执行onClick javascript selenium - python

javascript、python、html、selenium、selenium-webdriver

我试图从TripAdvisor中抓取一些数据，并使用带有Python绑定的Selenium来完成它。网页中的评审对象有时在底部有一个'More‘按钮，在单击它时显示完整的评审内容。它实际上是一个span元素，为它编写了onlclick JS函数。我想要实现的是加载页面，找到‘更多’的链接并点击它们，这样网页就可以在抓取操作开始之前完全加载显示的评论。到目前为止，我已经尝试了以下代码，但没有成功。我似乎无法理解堆栈跟踪中显示的错误。 import os import time from selenium import webdriver driver = webdriver.Fi

浏览 2提问于2016-01-18得票数 0

回答已采纳

1回答

Selenium驱动程序的方法'driver.set_page_load_time(30)‘错误

selenium、web-scraping、page-load-time

driver = webdriver.Firefox() driver.set_page_load_timeout(30) 我正在尝试使用selenium驱动程序从web上抓取数据。但是，在python中设置每个页面的最大加载时间时，我总是收到错误消息，并且没有任何有用的信息。我使用的是Mac，python版本是2.7。有人能告诉我如何解决这个问题吗？这真的让我抓狂。

浏览 0提问于2017-04-20得票数 0

1回答

用精美的汤从HTML中抓取表格

python、python-3.x、web-scraping、beautifulsoup

我正在尝试用python3从中抓取数据。该网站包含了基于冠军的FPS多人游戏“圣骑士”的玩家数据。我想要得到一个基于冠军的球员的统计数据，如网站所示。我面临的问题是，当我用Chrome检查页面源代码时，我得到了包含"table“标签的代码，它是干净的，我可以很容易地抓取它： (我的要点链接) 但是当我创建soup对象时，我得到了一个不同的代码。当我转到页面源码时，它和汤是一样的。页面源代码中没有标记。(您可以查看页面源代码以更好地了解)。现在，我如何从网站上抓取冠军明智的数据？我正在为python3使用请求和漂亮的汤 import requests as req import bs

浏览 2提问于2018-06-26得票数 0

1回答

未找到Pipenv模块

python、python-3.x、virtualenv、pipenv

我已经有一段时间没有用Python进行开发了，看到pipenv进入这个场景，我真的很兴奋。然而，我在使用它时遇到了一些问题。我安装了pipenv，然后使用了pipenv install beautifulsoup4。我的理解是，这应该已经创建了一个pipfile和一个虚拟环境。所以我启动了pipenv shell。瞧，我的文件在那里，还有美丽的汤。我想做的下一件事是pipenv install selenium。我写了这个非常简短的脚本(我现在正在学习做网络抓取)： from bs4 import BeautifulSoup from selenium import webdriver d

浏览 1提问于2018-03-20得票数 4

回答已采纳

2回答

Webscraping点击按钮Selenium

python、html、selenium、beautifulsoup

我正在试着用indeed.com搜索工作，用的是python，里面有硒和美汤。我想点击下一页，但似乎不知道该怎么做。看了很多线程，但我不清楚我应该在哪个元素上执行。这是网页html，当我检查“下一步”按钮时，带有灰色标记的代码就会出现。 ? 我还想提一下，我首先尝试了在执行mousedown时url发生了什么变化。在读取addppurlparam函数并在函数中添加字符串并使用该url后，我会返回到第一页。以下是我为selenium编写的类的代码，用于单击按钮： from selenium import webdriver from selenium.webdriver imp

浏览 23提问于2020-11-15得票数 0

回答已采纳

1回答

使用python的Webscraping元素

python、html、web-scraping、beautifulsoup、automation

我目前正在使用漂亮的汤尝试和网络刮一个网站的数据，但是python模块正在阅读该页面的源代码。但是，在页面的源代码中，我所需要的信息并不存在，但是，如果我在chrome中右键单击页面并检查元素，它就是。我想知道python模块是否可以从网页中抓取元素，而不是源代码。在“美丽的汤”中，我试图搜索像这样的元素，但是它们没有出现或出现，因为它在源代码中搜索。我也不知道为什么或者为什么它不出现在那里。

浏览 2提问于2020-08-28得票数 0

回答已采纳

2回答

美汤和硒不能刮网站内容

python、web-scraping、beautifulsoup

所以我试着抓取网页的内容。最初我尝试使用BeautifulSoup，但是我无法获取内容，因为内容是动态加载的。在四处阅读之后，我试着根据人们的建议使用Selenium，但是在这样做之后，我仍然无法获取内容。刮出来的东西跟美汤一样。是不是就不能抓取这个网页的内容呢？(例如：https://odb.org/TW/2021/08/11/accessible-to-all) import datetime as d import requests from bs4 import BeautifulSoup as bs # BeautifulSoup Implementation def dev

浏览 35提问于2021-08-11得票数 0

回答已采纳

1回答

我在jupyter笔记本上安装了BeautifulSoup4。尝试使用"from bs4 import BeautifulSoup“时出现错误

python、selenium、web-scraping、beautifulsoup

from selenium.webdriver import Chrome from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import Options` from bs4 import BeautifulSoup import pandas as pd to ‘您试图在Python2下使用Python3特定版本的美丽汤。这是行不通的。支持Python2的漂亮汤的最终版本是4.9.3’ ValueError:源代码字符串不能包含空字节

浏览 7提问于2022-09-24得票数 0

1回答

webcrawling-有哪些可能的方法来检测使用javascript加载的页面？

web-crawler

我想抓取一些网站。我正在使用selenium/PhantomJS抓取JS(react、angular、jquery等)。和python爬行其他所有的东西。我的主要问题是，我无法区分页面是否使用JS加载。任何想法都将受到欢迎！

浏览 2提问于2018-03-16得票数 0

1回答

Python urlopen连接已中止- urlopen错误[错误号10053]

python、proxy、mechanize、web-scraping、errno

我有一些代码，使用机械化和美丽汤的网页抓取一些数据。代码在测试机器上运行良好，但生产机器阻塞了连接。我得到的错误是： urlopen error [Errno 10053] An established connection was aborted by the software in your host machine 我已经读过类似的帖子，但我找不到这个确切的错误。我试图抓取的网站是HTTPS，但我也有同样的错误发生在HTTP网站上。我使用的是python 2.6和mechanize 0.2.4。这是由于代理，还是如错误所说，是由于我的本地计算机上的某些原因？我已经为mechanize编

浏览 1提问于2011-03-10得票数 6

回答已采纳

1回答

如何使用Selenium自动点击iframe中的多个链接？

python、selenium、web-scraping、beautifulsoup

我正在尝试从以下网站上收集秘鲁国会提出的几项法案的数据：基本上，我想单击搜索结果中的每个链接，抓取账单的相关信息，返回搜索结果，然后单击下一个账单的下一个链接，重复此过程。显然，国会会议上有这么多法案，如果我能把这件事自动化就太好了。到目前为止，我已经能够完成所有的事情，直到点击下一个账单。我已经能够使用Selenium启动一个显示搜索结果的web浏览器，使用嵌入在iframe中的xpath点击第一个链接，然后用漂亮的汤抓取内容，然后导航回搜索结果。我遇到的问题是无法单击搜索结果中的下一个账单，因为我不确定如何遍历xpath (或者如何遍历将把我带到每个后续账单的内容)。我希望能够抓取每一

浏览 9提问于2019-08-06得票数 0

2回答

我试图从网页中抓取一些数据，但一直收到selenium.common.exceptions.TimeoutException错误

python、selenium

我已经用请求+漂亮的汤从第一个页面中抓取了我想要的元素，并且正在尝试使用selenium单击一个按钮，该按钮用我想要抓取的其余数据加载另一个页面。新的selenium窗口将打开第一个页面，然后是第二个页面，但总是返回某种selenium.common.exceptions错误。我已经搜索并尝试使用隐式和显式的File "c:\Users\ArkPr\yelp\yelp_learner.py", line 122, in <module> WebDriverWait(driver, 10).until( File "C:\Users\ArkPr\AppDat

浏览 11提问于2021-08-24得票数 1

回答已采纳

1回答

使用Python抓取Ajax

python、selenium、pyqt4、beautifulsoup、screen-scraping

我正在尝试获取这个网站的表中的数据，该表在页面加载后通过jquery更新(我有权限)：我目前使用selenium和漂亮汤来获取数据，但是因为这些数据在html源代码中不可见，所以我无法访问它。我尝试过PyQt4，但同样得不到更新后的html源代码。这些值在firebug和chrome developer中都是可见的，那么有没有python包可以利用它并将其提供给漂亮的汤呢？我不是一个庞大的技术人员，所以理想情况下，我想要一个解决方案，这将在Python或下一个最简单的软件类型。我知道我可以通过专有的“屏幕刮板”软件获得它，但那是昂贵的。

浏览 2提问于2012-05-04得票数 3

回答已采纳

1回答

用AWS Lambda进行Web抓取

javascript、python、python-2.7、beautifulsoup、aws-lambda

为了节省EC2成本，我想在AWS上运行一个脚本。但是，这个脚本还需要PhantomJS、oauth2client、PYOpenSSL、selenium，当然还有漂亮的汤来完成它的抓取。是否有可能在AWS Lambda上运行“美丽汤”(通过运行以上所需的附加程序)？

浏览 4提问于2017-08-15得票数 2

回答已采纳

1回答

如何在点击按钮后抓取数据

python-3.x、web-scraping、beautifulsoup

我试着用漂亮的汤从网站上抓取数据，但要抓取所有内容，我必须点击按钮 <button class="show-more">view all 102 items</button> 加载每一项。我听说可以用selenium来完成，但这意味着我必须用脚本打开浏览器，然后抓取数据。有没有其他方法来解决这个问题。

浏览 16提问于2019-06-10得票数 0

1回答

尝试使用Python和Selenium迭代地滚动和刮网页

javascript、python、selenium、beautifulsoup

最近，我问了一个问题(在这里引用：)，它帮助我识别了我在抓取一个页面的所有内容时遇到的一个问题，当一个滚动时页面会动态更新。但是，我仍然无法使用selenium来使代码指向正确的元素，并迭代地向下滚动页面。我还发现，当我手动向下滚动页面时，当新内容更新时，当加载的页面消失时，一些原始内容就会消失。例如，看下面的图片..。我已经用我试图在下面抓取的数据(蓝色高亮显示)将容器作为目标。首先，我很难选择正确的元素向下滚动页面，因为我从来没有这样做过。我相信我必须使用selenium来锁定容器，然后使用"execute_script“函数向下滚动页面，因为这个表被嵌入到web页面的正

浏览 4提问于2016-01-15得票数 3

1回答

抓取元素在页面源中不可见

python、selenium、web-scraping、beautifulsoup

我试图抓取一个网站(https://harleytherapy.com/therapists?page=1)，它看起来像是由Javascript生成的，而我试图抓取的元素(带有id="downshift-7-menu"的lu )并没有出现在“页面源代码”中，而只是在我点击“检查元素”之后才出现。我试着在这里找到一个解决方案，到目前为止，这是我能想出的代码(硒+美汤的组合) import requests from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.c

浏览 21提问于2020-12-27得票数 1

回答已采纳

1回答

页面需要2次加载才能完成

python、web-scraping、beautifulsoup、request

在这个网站上，我试着刮卖跨文本，但这个网站需要2次加载来完成网站。这就是为什么数据不被刮掉的原因。我的守则： import requests from bs4 import BeautifulSoup url = "https://toptees.store/linux-funny-cloud-computing" reqs = requests.get(url) soup = BeautifulSoup(reqs.text, 'lxml') sold = soup.find_all("span", class_='ng-bindin

浏览 6提问于2022-09-15得票数 -1

1回答

查找并单击脚本元素中的元素

python、selenium

我正试图用python和selenium在一个网站上改变商店的位置。Firefox的Selenium IDE插件给了我一个序列。这个序列在Firefox的selenium中工作，但我无法让它在Python (Spyder)中工作。我想单击的元素在脚本中，没有任何工具能够在脚本中找到元素。美丽的汤做不到，硒也做不到。使用下面的代码，我尝试在每一家商店中获得产品价格，因此我需要将商店(左上角的黄色按钮，然后是下拉列表)从下拉列表中的每个商店更改为每个商店，并从下拉列表中刮除产品价格的页面源。但是，每当我尝试"driver.find_element_by_“时，我就会”无法找到元素：“ 点击

浏览 0提问于2019-06-19得票数 1

1回答

便携式硒

python、selenium、web-scraping、portability

在用python编写的所有项目中，我使用selenium来抓取网站，我只能从自己的机器上运行脚本，如果我将脚本发送给客户端，如果他需要每天运行该脚本，它很可能无法工作。是否有一种方法可以使用selenium，以便脚本可以移植并能够在任何平台上运行，这样我就可以将它发送到我的客户端，并确信它能够工作。我在网上找不到任何对我有帮助的东西。如果selenium不能做到这一点，那么是否可以使用其他python模块呢？到目前为止，对于使用javascript的页面，我使用selenium进行抓取。为了便于携带，我该换别的东西吗？请告诉我。如果有人能给我指明正确的方向，我将非常感激。

浏览 0提问于2018-03-28得票数 1

1回答

添加Chrome扩展- BeautifulSoup - Python

python、selenium、selenium-webdriver、beautifulsoup

我用它添加了一个带有Selenium的扩展，现在我转到了Beautiful soup，我正在寻找一种方法，在拥有扩展的同时，通过美丽的汤来抓取。我怎么才能在漂亮的汤里做到这一点呢？ import selenium import os from selenium import webdriver from selenium.webdriver.chrome.options import Options executable_path = "C:\Program Files (x86)\chromedriver.exe" os.environ["webdriver.chr

浏览 0提问于2021-08-05得票数 0

2回答

抓取特定文本的网页(字符串)

python

在stackoverflow上的第一个帖子，所以如果我没有正确发帖，我道歉。我试图抓取网页的信息，只有当一个特定的文本字符串存在。我只是使用了漂亮的汤，但找不到包含我正在寻找的文本的元素。经过更多的研究，我尝试使用selenium，因为我知道一些动态加载的元素在漂亮的汤中是找不到的。到目前为止，我仍然找不到文本字符串。当我检查元素时，文本是可定位的。 TLDR:我想要抓取这个网页的每股价格，因为我可以找到‘公开发行价格’的文本。我不能找到字符串时，我使用美丽的汤或硒，但我可以找到与检查元素()

浏览 0提问于2020-06-06得票数 1

1回答

使用Mechanize将HTML注入页面

javascript、python、html、web-scraping、mechanize

我正在写一个网页抓取程序，以便从网站上获得我的成绩。我使用Mechanize登录页面并导航到我要抓取的区域。不幸的是，页面使用Javascript对页面进行加密(可能是为了阻止我抓取)。我找到了解密脚本并移植到了Python。它起作用了，我用它从页面中提取加密的字符串，当我转换它时，它变成了HTML中的一个表。那么，为了达到我的观点，有没有什么方法可以把HTML重新注入到页面中，并使用mechanize来使用表格上的链接来获得我的成绩？谢谢你的帮助！编辑:我也有很好的汤，如果有帮助的话。

浏览 3提问于2013-01-14得票数 1

回答已采纳

1回答

MechanicalSoup能否登录到需要SAML身份验证的页面？

python-3.x、saml、mechanicalsoup

我正在尝试从SSO (单点登录)站点后面下载一些文件。它似乎是SAML认证的，这就是我被卡住的地方。一旦通过身份验证，我将能够执行返回JSON的API请求，因此不需要解释/抓取。在机械汤中不确定如何处理这一点(通常对web编程相对不熟悉)，如果能提供帮助，我们将不胜感激。这是我到目前为止所得到的： import mechanicalsoup from getpass import getpass import json login_url = ... br = mechanicalsoup.StatefulBrowser() response = br.open(login_url) i

浏览 1提问于2020-01-28得票数 0

1回答

使用selenium获取当前页面url

python、python-3.x、selenium、selenium-webdriver、selenium-chromedriver

我用selenium打开页面。我试图得到当前打开的页面url，但我似乎无法理解它。 from selenium import webdriver from selenium.webdriver.chrome.options import Options import getpass vid = 'https://openload.co/f/KgNvMOs9fws/C__Program_Files_Python36_placeholder.mp4' chrome_options = webdriver.ChromeOptions() chrome_options.add_arg

浏览 0提问于2018-03-21得票数 1

回答已采纳