如何使用Beautifulsoup和Selenium逐一选择下拉菜单来抓取动态生成的数据？_如何使用selenium和python从动态生成的页面中抓取内容？_如何使用Selenium和Node.js从网页中抓取动态渲染的数据？ - 腾讯云开发者社区

python、selenium、beautifulsoup

我试着从这个页面上抓取数据如何将结果与";“分开？我如何准确地选择我需要的数据？数据是动态的结果 ['1.Ajax20153261:548WWWWP'] 预期结果(在本例中遗漏了几行值20和值48 ) Ajax;15;3;2;61:5;W;W;W;W;P' 代码如下 from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from bs4 import BeautifulSoup as BS import requests from ti

浏览 5提问于2022-01-25得票数 2

1回答

Selenium Python -获取表数据而不是JavaScript代码

javascript、python、selenium、web-scraping

我需要一些关于数据抓取任务的帮助：I成功地填充下拉菜单，并使用以下代码单击视图： from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import Select from bs4 import BeautifulSoup url = "https://soilhealth.dac.gov.in/NewHomePage/NutriPage" driver = webdriver.Chrome(execut

浏览 3提问于2020-03-24得票数 0

回答已采纳

1回答

如何在Python中抓取具有动态ID的文本变量

python、selenium、selenium-webdriver

目前，我正试图在整个网页中获取一些文本数据。一开始，我抓取所有的网页，然后慢慢地在网页中筛选，从每一页抓取我需要的数据。例如，由于动态ID的原因，我在抓取诸如平方英尺或邻居之类的项目时遇到了困难。我通过XPath或CSS选择器看到的许多例子都涉及到搜索文本，但在我试图抓取的每一页上都会发生变化。有什么办法能捕捉到这片土地或社区吗？ from bs4 import BeautifulSoup from selenium import webdriver as wd from selenium.common.exceptions import StaleElementReferenceExcep

浏览 3提问于2019-02-05得票数 0

1回答

BeautifulSoup找不到任何选择标记

python、beautifulsoup

这就是我试图从上抓取数据的网站我在此标记下的下拉菜单中获取日期值： <select class="Fz(s)" data-reactid="5"></select> 下面是我要运行的代码： from bs4 import BeautifulSoup from urllib2 import urlopen optionsUrl = 'https://finance.yahoo.com/quote/aapl/options' optionsPage = urlopen(optionsUrl) soup = Beautiful

浏览 3提问于2018-02-12得票数 0

2回答

美汤和硒不能刮网站内容

python、web-scraping、beautifulsoup

所以我试着抓取网页的内容。最初我尝试使用BeautifulSoup，但是我无法获取内容，因为内容是动态加载的。在四处阅读之后，我试着根据人们的建议使用Selenium，但是在这样做之后，我仍然无法获取内容。刮出来的东西跟美汤一样。是不是就不能抓取这个网页的内容呢？(例如：https://odb.org/TW/2021/08/11/accessible-to-all) import datetime as d import requests from bs4 import BeautifulSoup as bs # BeautifulSoup Implementation def dev

浏览 35提问于2021-08-11得票数 0

回答已采纳

1回答

基于动态内容和隐藏数据表的Selenium Web抓取

python、selenium、dynamic、web-scraping、beautifulsoup

真的需要这个社区的帮助！我正在使用Selenium和Beautiful Soup在Python中对动态内容进行web抓取。问题是，即使使用以下代码，也无法将定价数据表解析为Python： html=browser.execute_script('return document.body.innerHTML') sel_soup=BeautifulSoup(html, 'html.parser') 然而，我后来发现，如果我在使用上面的代码之前单击WebPage上的“查看所有价格”按钮，我可以将该数据表解析为python。我的问题是，我如何解析和访问我的py

浏览 15提问于2018-02-14得票数 2

2回答

从下拉选项值中抓取Python BeautifulSoup

python、python-3.x、web-scraping、beautifulsoup

我尝试过用BeautifulSoup的input dropdown从网络上抓取数据这是值下拉列表 <selected name="try"> <option value="G1">1</option> <option value="G2">2</option> </selected> 我试着这样做 soup = BeautifulSoup(url, 'html.parser') soup['selected'] = 'G1'

浏览 8提问于2018-11-24得票数 3

回答已采纳

1回答

Python，Selenium "::after“抓取时的问题

python、selenium、selenium-webdriver、web-scraping、beautifulsoup

我正在尝试从一个动态的中抓取汽车信息。但是，在运行Selenium chrome浏览器后，检查元素不会像原始源页面中那样显示。在html源代码中出现“::after”元素，而不是汽车细节的html代码(产品图像附近的信息区域)。你可以在下面看到我的抓取代码； import requests from requests import get from bs4 import BeautifulSoup from selenium import webdriver driver_path = ("C:\\Desktop\\chromedriver.exe") driver = w

浏览 1提问于2020-03-18得票数 1

1回答

如何刮除AEM表格？

python、selenium、beautifulsoup、aem

我正在努力弄清楚如何使用python来刮取动态的AEM登录表单。问题是，我一直试图找出哪个模块最适合在网页上动态弹出的登录表单字段中使用。有人告诉我Selenium是个不错的选择，但BeautifulSoup也是。有什么指针可以用来动态地抓取这些数据呢？

浏览 2提问于2016-11-17得票数 0

回答已采纳

2回答

什么是最好的方法来刮这个网站？(不是硒)

python、web-scraping

开始之前，TLDR位于底部因此，我试图刮的洪流磁铁链接和他们的洪流标题名称，基于用户输入的搜索。我已经知道了如何使用BeautifulSoup和通过以下代码进行请求： from bs4 import BeautifulSoup import requests import re query = input("Input a search: ") link = 'https://rarbgmirror.com/torrents.php?search=' + query magnets = [] titles = [] try: request = r

浏览 6提问于2020-03-27得票数 1

回答已采纳

2回答

Dinamica JS加载站点上的Web抓取

python、selenium、web-scraping、beautifulsoup

我正在做以下页面的web抓取工作：COVID，我需要做的是生成表的csv，该表出现在页面上，但动态加载了我正在使用selenium的数据。问题是，即使这样，我也找不到包含以下代码的表： import requests from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys import time #url of the page we want to scrape url = "https://saludd

浏览 26提问于2020-12-14得票数 0

回答已采纳

1回答

使用python从下拉菜单中抓取所有动态生成的数据的最佳方法

python、selenium、web-scraping、beautifulsoup

我正在创建webscraper，它将从这个网站中动态地生成玩家数据。我想要创建一个循环，它将从下拉菜单中为播放器生成数据，刮取数据，然后循环遍历下拉菜单中的所有播放器列表。我很好奇是否使用selenium与站点交互是最好的方法。但我也注意到，每个播放器的URL都遵循特定的模式，所以我考虑了抓取初始页面来收集我需要的所有数据，然后使用这些数据构造URL列表，然后循环遍历URL列表并将它们作为静态页面处理。是否有为这种特定类型的web抓取构建的python工具？

浏览 6提问于2020-03-18得票数 1

回答已采纳

1回答

使用selenium、bs4或请求从交互式图表中抓取数据

python、selenium、web-scraping、beautifulsoup

我想从这个页面上的图表中抓取数据：http://188.166.44.172/match/live-stats/100941310 我尝试了requests和bs4，但没有获得任何数据，我也尝试了selenium，但也没有数据。下面是使用请求的代码： import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:76.0) Gecko/20100101 Firefox/76.0'} ses

浏览 29提问于2021-04-06得票数 3

回答已采纳

1回答

如何在跨度(箭头)内循环抓取数据，并在连续的页面中循环所有数据？

python、loops、selenium、web-scraping、beautifulsoup

这是我第一次尝试在selenium和bs4中使用python。我正在尝试从这个website中抓取数据首先，我从cantone下拉菜单中选择GE，单击复选框"Conffermo“和按钮"Ricerca”。然后我就可以看到数据了。我必须单击每个箭头来展开数据，并从每个人那里抓取数据(这是一个循环，不是吗)。然后在下一页上执行相同的操作(单击页面底部的"Affiggere le seguenti entrate“) 我想对数据使用相对xpath，因为不是所有人都有所有的数据(当数据丢失时，我想在excel中放一个空单元格) 这是我到目前为止的代码： import u

浏览 22提问于2019-01-18得票数 0

2回答

使用python抓取动态javascript内容网页

python、html、selenium、web-scraping、rendering

我正在尝试使用Python抓取这个网站：'‘。首先，我注意到我感兴趣的表实际上位于这个url：但是，requests + BS4只给了我HTML格式的页面源代码。我假设这是因为内容是动态的。因此，我尝试了Selenium + BS4来抓取网站，但我仍然只能抓取页面源代码。 from selenium.webdriver import Firefox from bs4 import BeautifulSoup import lxml driver = Firefox() url = 'https://ec.europa.eu/assets/eac/msca/jobs/im

浏览 4提问于2020-02-02得票数 0

3回答

BeautifulSoup和Selenium不能在嵌套<div>下获取<p>内容

python、selenium、web-scraping、beautifulsoup

我正试着从网页上抓取评论。所附的图像显示，评论位于名为"more reviewdata“的div类下的<p>标记中。我首先使用BeautifulSoup，然后使用Selenium提取“更多的reviewdata”部分，但失败了，尽管其他<p>和<div>标记提取得很好。我访问过的几个教程网站之一，暗示一个动态页面不会显示所有的来源，点击检查。但是在这里，在单击“检查”之后将显示评审内容，这意味着此页面不是动态的。有没有人建议。提前谢谢。对于BeautifulSoup，我的代码如下所示： import requests url = 'htt

浏览 6提问于2021-07-12得票数 1

回答已采纳

1回答

如何抓取和提取链接到n级，并再次抓取数据并将其映射到python中的输出？

python、web-scraping、web-crawler

我正在学习python中的网络爬行和抓取。我想要抓取数据，在一个网站上有链接，而在这些链接里面有更多的链接。所以我想抓取数据直到预定义的级别n。这是我的基本代码 import requests from selenium import webdriver from requests_ntlm import HttpNtlmAuth from selenium import webdriver from selenium.webdriver.chrome.options import Options import time from bs4 import BeautifulSoup from

浏览 40提问于2019-12-17得票数 0

1回答

用Selenium和BeautifulSoup4抓取动态加载的Href属性

python、python-3.x、selenium、web-scraping、beautifulsoup

我尝试用Selenium和BeautifulSoup4抓取动态加载的href属性。当我查看-source网站时，href属性是空的，但当我单击inspect元素时，href属性将有一个链接。意味着href属性是动态加载的。如何提取该链接？我正在尝试以下代码 def Scrape_Udemy(): driver.get('https://couponscorpion.com/marketing/complete-guide-to-pinterest-pinterest-growth-2020/') content = driver.page_source

浏览 42提问于2020-08-09得票数 0

回答已采纳

1回答

在Azure云上部署Python Web抓取文件(函数应用程序)

python、azure、selenium-webdriver、web-scraping、beautifulsoup

我有两个python文件，它们使用Selenium和Beautifulsoup进行Web抓取，并将结果存储在单独的CSV文件中，即file1.csv和file2.csv。现在，我想将这些文件部署到Azure云上，我知道Azure函数应用程序将是理想的选择。但是，我不知道函数应用程序将如何支持Selenium驱动程序。基本上，我想定时触发我的两个web抓取文件，并将结果存储在两个单独的文件file1.csv和file2.csv中，这两个文件将存储在Azure云上的blob存储中。有人能帮我完成这项任务吗？如何在Azure函数应用程序上使用selenium驱动程序？

浏览 12提问于2020-12-18得票数 0

回答已采纳

1回答

使用python和selenium进行web爬行

python、selenium

我正在尝试从网站抓取数据，但问题是，有更多的按钮来查看下50条记录，就像我不得不点击直到记录结束。我只能取50个名字和地址。需要把所有的东西都取下来，直到负载更多。对于动态单击按钮，我在python中使用selenium。我想找出所有零售商的姓名、地址和联系方式。我的尝试： import time from bs4 import BeautifulSoup from selenium import webdriver from selenium.common.exceptions import TimeoutException url = "https://www.test.

浏览 1提问于2017-09-18得票数 1

回答已采纳

2回答

你能用BeautifulSoup编写一个css选择器，使用类或样式来标识div中所需的信息吗？

python、selenium、web-scraping、beautifulsoup、css-selectors

我正在使用BeautifulSoup抓取网页，有一条我想要的信息包含在<div>中，有时只有class的值，有时只有style的值，如下所示： <div class="text-one"> Text I want </div> <div style="display-style"> Text I want </div> 使用Selenium，我将能够抓取我想要的文本，而不管它在页面上是如何格式化的，通过这样做： driver.find_element_by_xpath(

浏览 11提问于2021-01-30得票数 0

回答已采纳

3回答

Python漂亮的汤，在网站上刮桌子

python、web-scraping

我最近开始对通过python库beautifulsoup4进行网络抓取感兴趣，我的目标是获取有关新冠肺炎案例的数据(在摩洛哥是一个良好的开端)；我的信息所在的网站是："“有一个包含所有信息的大表，我尝试这样做： U = 'https://www.worldometers.info/coronavirus/' response = requests.get(U) html_soup = BeautifulSoup(response.text, 'html.parser') info = html_soup.find_all('tr', cl

浏览 0提问于2020-10-16得票数 0

回答已采纳

1回答

刮取多个页面的动态DataTable但相同的URL

python、selenium、beautifulsoup、datatables、screen-scraping

我有使用C的经验，我开始接触Python，主要是为了好玩。我想在这里刮一下这个页面，。由于具有我感兴趣的内容的表是在连接到页面后动态创建的，所以我使用：在browserBeautiful 4中加载页面，以抓取加载的数据目前，我能够抓取前25个条目中所有感兴趣的字段，这些条目一旦连接到页面就会加载。我可以在一页中有多达100个条目，但总共有1045个条目，它们在不同的页面中被分割。问题是，对于所有页面，url都是相同的，并且表的内容在运行时被动态加载。我想要做的是找到一种方法，能够抓取所有的条目，也就是1045。通过互联网阅读，我知道我应该发送一个正确的帖子请求(我还发现他们从我的代码中检索

浏览 3提问于2020-11-12得票数 1

回答已采纳

1回答

在Python中打印selenium webelement的HTML文本

python、selenium、beautifulsoup、web-scraping、urllib2

我正在使用Python中的Selenium webdriver进行web抓取项目。如何打印selenium.WebElement的HTML文本？我打算使用BeautifulSoup来解析HTML以提取感兴趣的数据。谢谢

浏览 19提问于2011-11-30得票数 5

回答已采纳

3回答

用于web抓取的Selenium与BeautifulSoup

javascript、python、selenium、beautifulsoup

我正在使用Python从一个网站上抓取内容。首先，我在Python上使用了BeautifulSoup和Mechanize，但我看到网站上有一个通过JavaScript创建内容的按钮，所以我决定使用Selenium。既然我可以通过像driver.find_element_by_xpath这样的方法使用Selenium查找元素并获取它们的内容，那么当我可以使用Selenium做任何事情时，还有什么理由使用BeautifulSoup呢？在本例中，我需要使用Selenium来单击JavaScript按钮，所以使用Selenium进行解析更好，还是应该同时使用Selenium和Beautiful S

浏览 1提问于2013-07-03得票数 53

回答已采纳

1回答

分析链接时，BeautifulSoup返回空列表

python、beautifulsoup、html-parsing

我是网络抓取的新手，我正在尝试使用BeautifulSoup从网站中提取链接和表格数据。但是，即使网页中有链接，它也会返回none。我可以通过在浏览器中查看网页来找到链接。下面是我使用的代码 from bs4 import BeautifulSoup as soup from selenium import webdriver driver = webdriver.Chrome() url = "http://www.ms2soft.com/tcds/?loc=Txdot&mod=tcds&local_id=57CC441" driver.get(url)

浏览 23提问于2020-04-04得票数 0

2回答

如何在python中实现网络抓取

python、selenium、web-scraping、beautifulsoup、mechanize

我对python刚开始在python上抓取。我必须从这个中抓取数据我需要根据的实体代理来抓取所有的详细信息op -state代理程序；对于web浏览器上的，我必须遵循下面的说明。转到单击“代理办公室”按钮，在“搜索”框中输入4000针，然后提交。然后我们得到了机构的名单。去我们的小组然后我们找他们的探员。然后，我们必须访问每个代理页面并记录它们的信息。任何人都可以告诉我如何处理这个问题。是制造这种刮板的最好方法。我是否必须使用selenium与页面进行交互。我使用BeautifulSoup完成了request、和简单表单提交的工作，并使用机械化完成

浏览 9提问于2017-10-09得票数 0

回答已采纳

1回答

使用请求和BeautifulSoup抓取动态内容的问题

python、web-scraping、beautifulsoup

我试着在网站上搜索表单的回复，尝试填写表格并提交请求和BeautifulSoup。在检查了提交的网络流量后，我发现帖子的仿冒是“数字”和“朗”。这就是为什么我试图发布以下内容的原因： import requests from bs4 import BeautifulSoup with requests.Session() as session: response = session.post('https://www.languagesandnumbers.com/how-to-count-in-german/en/deu/', data={ "

浏览 7提问于2021-12-11得票数 0

回答已采纳

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

python、web-scraping

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

1回答

无法使用Selenium转到twitter页面的底部

python、selenium、selenium-webdriver、web-scraping、beautifulsoup

我想用Selenium从twitter上抓取所有的tweet。因此，我想在页面的底部开始，我尝试了很多，但它显示“返回到顶部”，如图所示。如果应用任何其他方法，我如何使用Selenium在页面底部/“返回顶部”消失，或者如何抓取所有tweet？ import pandas as pd import selenium from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support

浏览 13提问于2019-02-14得票数 0

2回答

使用selenium单击下拉菜单，抓取不起作用

javascript、python、selenium、web-scraping、scrapy

我想从上抓取数据。首先，我想从下拉菜单中选择联赛，例如美洲联赛、德甲联赛。我的代码选择了美洲，但是没有加载新数据。我认为在后台有一些javascript没有被激活。下面是代码。我使用scrapy和selenium和chromedirver，但我也测试了firefox驱动程序，但没有成功。 import scrapy from squawka.items import SquawkaItem from scrapy.http import FormRequest, Request from selenium import selenium from selenium import webd

浏览 0提问于2015-07-17得票数 0

1回答

如何使用Java Selenium webdriver访问隐藏的下拉菜单

javascript、java、selenium、drop-down-menu、selenium-webdriver

我想使用selenium webdriver访问网页上隐藏的下拉菜单。首先，我必须从导航栏中单击一个选项，在单击该选项后，会出现下拉菜单，然后我想从菜单列表中选择一个值。有人能告诉我如何使用Java selenium webdriver来完成这项工作吗？html标签没有唯一的名称和id。它们的类名可以在单击导航栏中的选项后动态更改。

浏览 2提问于2015-07-30得票数 0

3回答

用Python在底层执行页面的JavaScript？

python、html、web-scraping、lxml、urllib2

当用urllib2抓取页面时： url = https://www.geckoboard.com/careers/ response = urllib2.urlopen(url) content = response.read() 在源代码(content)中找不到以下元素(作业的链接) 看一下在浏览器中呈现的完整源代码：因此，前端ENGINEER元素似乎是由Javascript动态加载的。有没有可能让这个Javascript在不涉及Selenium、BeautifulSoup或其他的情况下由urllib2 (或其他低级库)执行？

浏览 2提问于2016-02-10得票数 1

1回答

如果我们可以使用Selenium，为什么还需要像BeautifulSoup这样的解析器呢？

python、selenium、beautifulsoup、web-crawler、urllib2

我目前正在使用Selenium从一些网站抓取数据。与urllib不同，我似乎并不需要像BeautifulSoup这样的解析器来解析HTML。我可以简单地找到一个带有Selenium的元素，并使用Webelement.text来获取我需要的数据。正如我所看到的，有些人在web爬行中同时使用Selenium和BeautifulSoup。真的有必要吗？bs4可以提供哪些特殊特性来改进爬行过程？谢谢。

浏览 3提问于2017-04-02得票数 8

回答已采纳

1回答

从单个列表中的下拉列表中查找值，并带有漂亮的汤

python、selenium、web-scraping、beautifulsoup

我是新手的网络抓取，并有一个汽车网站与下拉。如何在下拉菜单中选择一个汽车品牌(例如BMW)，然后单击以查看该品牌的所有汽车？使用Beautifulsoup是否可以做到这一点，或者我是否需要Selenium 网站是this 。我设法获得了每个汽车品牌需要输入的data_values (数字)，但我不知道如何将它们输入网站，然后单击？ for x in soup.find_all("div", class_ = "dropdown manufacturer-dropdown"): for car in x.find_all('li'):

浏览 2提问于2021-04-14得票数 0

1回答

为什么BeautifulSoup无法从页面源代码中抓取完整的脚本？

python、web-scraping、beautifulsoup

如果以前有人问过这个问题，我很抱歉。我对每件事都很陌生。我正在尝试解析来自以下网站的页面。然而，抓取的结果脚本与我在Chrome上查看页面源代码时观察到的脚本并不相同。 import pandas as pd from bs4 import BeautifulSoup as bsoup import requests as rq url_estates = "https://www.propertyguru.com.sg/singapore-property-listing/hdb" headers = {"user-agent" : "Mozill

浏览 3提问于2020-07-23得票数 0

1回答

在保留链接的同时刮除分页的动态表

python、selenium、dynamic

我是一个初学的Python程序员，试图抓取一个具有分页功能的动态表(datatable)。有“第一”和“先前”分页按钮，分别索引"0“和"1”，然后是编号按钮(见附件图)，所以我想从按钮1开始，索引为"2“，然后遍历页面，直到捕获完整链接的整个表为止。 <a href="#" aria-controls="datatable" data-dt-idx="2" tabindex="0">1</a> 我设法抓取了前十行表的信息，但不知道如何提前捕获其余的页面。我想我需要以某种方式遍历这些

浏览 4提问于2021-11-13得票数 1

回答已采纳

3回答

HTML表格特定行抓取

python、python-3.x、selenium、selenium-webdriver、lxml

我想从的特定行中抓取数据。我只想要橙色/金色的行。在此之前，我使用SIM提供的代码来抓取整个表信息，然后对其进行操作： from selenium.webdriver import Chrome from contextlib import closing from selenium.webdriver.chrome.options import Options from bs4 import BeautifulSoup URL = "https://www.n2yo.com/passes/?s=39090&a=1" chrome_options = Options

浏览 2提问于2018-03-17得票数 1

1回答

如何从多个网站页面将抓取的结果保存为CSV文件？

python、selenium、web-scraping

我正在尝试用selenium和beautifulsoup.My从亚马逊网站上抓取一些ASIN(比方说600个ASIN)，主要问题是如何将所有抓取的数据保存到CSV文件中？我已经尝试了一些东西，但它只保存了最后一个抓取的页面。代码如下： from time import sleep import requests import time import json import re import sys import numpy as np from selenium import webdriver import urllib.request from selenium.webdriver.

浏览 14提问于2020-01-15得票数 1

回答已采纳

1回答

无法使用请求从网页中抓取两个字段

python、python-3.x、web-scraping、beautifulsoup、python-requests

我试图使用请求从这个中抓取两个字段。我使用了精确的选择器来定位内容，但是我无法获取它们，因为它们是动态生成的，在页面源中不可用。但是，我使用选择器作为占位符。我知道如何使用selenium抓取这两个字段，但我想知道如何使用请求获取它们。我要找的领域：我试过： import requests from bs4 import BeautifulSoup url = "https://www.namebase.io/domains/unite" with requests.Session() as s: s.headers['User-Agent&#

浏览 0提问于2020-05-18得票数 0

回答已采纳

2回答

用python抓取动态加载的网站

javascript、python、web-scraping、beautifulsoup、pyqt5

我刚开始抓取动态加载的网站，我被困在试图抓取这个网站的团队名称和赔率。我用PyQt5试过了，就像这篇文章里说的那样 class Page(QWebEnginePage): def __init__(self, url): self.app = QApplication(sys.argv) QWebEnginePage.__init__(self) self.html = '' self.loadFinished.connect(self._on_load_finished) self

浏览 0提问于2019-12-13得票数 0

3回答

Python硒多处理

python、python-3.x、selenium、web-scraping、multiprocessing

我用python和selenium结合编写了一个脚本，从它的登陆页面中抓取不同帖子的链接，并通过跟踪指向其内部页面的url最终获得每个帖子的标题。虽然我在这里分析的内容是静态的，但我使用selenium来查看它在多处理中的工作方式。然而，我的意图是使用多处理进行抓取。到目前为止，我知道selenium不支持多处理，但我似乎错了。我的问题:当使用多进程运行时，如何减少使用selenium的执行时间？ This is my try (it's a working one) import requests from urllib.parse import urljoin from mul

浏览 2提问于2018-11-26得票数 31

回答已采纳

1回答

Selenium下载完整的html页面

python、selenium

我正在学习使用Python Selenium和BeautifulSoup进行web抓取。目前，我正在尝试抓取谷歌搜索趋势上的热门搜索这是我当前的代码。然而，我意识到完整的html没有下载，我只有最近几个日期的内容。我能做些什么来纠正这个问题？ from selenium import webdriver from bs4 import BeautifulSoup googleURL = "http://www.google.com/trends/hottrends#pn=p5" browser = webdriver.Firefox() browser.get(googl

浏览 1提问于2013-05-17得票数 15

1回答

Python Beautifulsoup下拉菜单

python

我正在尝试在下拉菜单中选择当前月份，但我不确定Beautifulsoup是否像Selenium，我应该‘点击’搜索按钮才能得到结果，并且不知道如何在Beautifulsoup中这样做，因为网站不是以selenium打开的，我无法观察是否选择了月份的过程，我使用： html_link = 'https://www.ksei.co.id/publications/new-securities-registration?setLocale=en-US' html = requests.get(html_link).text soup = BeautifulSoup(html,

浏览 18提问于2021-05-13得票数 0

回答已采纳

2回答

用Python/Selenium抓取动态/Javascript生成的网站

python、selenium

我试着抓取这个网站：使用Python和Selenium (参见下面的代码)。内容是动态生成的，显然在浏览器中不可见的数据不会被加载。我已经尝试过将浏览器窗口放大，并滚动到页面底部。放大窗口可以在水平方向上获得我想要的所有数据，但在垂直方向上仍有大量数据需要抓取。滚动似乎根本不起作用。有没有人对如何做到这一点有什么好主意？谢谢! from selenium import webdriver import time url = "http://stats.uis.unesco.org/unesco/TableViewer/tableView.aspx?ReportId=210&#

浏览 2提问于2013-05-23得票数 3

2回答

如何修复JavaScript是不可用的输出，当web使用selenium和使用Python的漂亮汤抓取动态站点时

python、selenium、beautifulsoup

我到处寻找解决方案(包括有关问题的旧的堆栈溢出帖子)，以删除无法作为输出的javascript，因此我决定使用selenium而不是requests，但问题仍然存在。任何人都知道如何解决这个问题，这样就有可能抓取动态站点。我只想从动态站点检索文本。我已经用尽了所有在下面找到解决方案的方法--我的代码--请随意添加或推荐解决方案。控制台输出: JavaScript不可用。我们检测到在此浏览器中禁用了JavaScript。请启用JavaScript或切换到受支持的浏览器以继续使用twitter.com。您可以在我们的帮助中心看到支持的浏览器列表。帮助中心下面是我的代码： import time

浏览 8提问于2022-03-11得票数 0

2回答

在amazon lambda python中运行selenium webdriver

python、python-3.x、amazon-web-services、selenium、aws-lambda

我想在amazon lambda中运行BeautifulSoup和selenium webdriver，我的运行环境是python3.6。可以运行吗？如果是这样的话是怎么做的。我的意图是使用漂亮的Soup4和selenium从网页中删除数据(因为它必须删除由javascript动态生成的数据)。

浏览 4提问于2018-04-21得票数 14

回答已采纳

1回答

如何在点击更多按钮后抓取网站数据

python、selenium、web-scraping、beautifulsoup

我正在尝试使用BS4 + selenium学习web抓取。网站链接为评论文本具有更大的跨度，单击该跨度时，使用AJAX将更多的文本加载到同一div中。但是我的代码在selenium单击More按钮之前输出了评论文本。如何使用selenium等待抓取更多按钮 from selenium import webdriver from bs4 import BeautifulSoup def openUrl(link): driver = webdriver.Firefox() driver.get(link) elem1 = driver.find_ele

浏览 4提问于2017-06-20得票数 0

1回答

用Selenium返回空DataFrame从网站中抓取表

pandas、dataframe、selenium、web-scraping、webdriverwait

我刚开始学习网络抓取，并尝试从的'Holdings‘表中提取数据首先，我使用熊猫，但它返回给我空的数据。后来我发现这个表是动态的，我需要使用selenium。但是，它还会返回空数据。有人能帮我一下吗？会很感激的。 import pandas as pd from selenium import webdriver from bs4 import BeautifulSoup # Instantiate options options = webdriver.ChromeOptions() options.headless = True # Instantiate a webdriv

浏览 3提问于2021-12-22得票数 1

回答已采纳

1回答

利用硒和美汤实现Python抓取JavaScript

python、selenium、screen-scraping、beautifulsoup

我正在尝试使用BS和Selenium抓取JavaScript enables页面。到目前为止，我有以下代码。它仍然不能以某种方式检测到JavaScript (并返回一个空值)。在这种情况下，我试图抓取底部的Facebook评论。(Inspect元素将类显示为postText) 谢谢你的帮助！ from selenium import webdriver from selenium.common.exceptions import NoSuchElementException from selenium.webdriver.common.keys import Keys import

浏览 2提问于2013-01-26得票数 11