开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python | Selenium |一直输出页面源代码，而不是我手动检查元素时看到的内容

||

问题：我使用Python和Selenium进行网页自动化测试时，遇到一个问题。无论我使用什么方法，它都只会输出页面的源代码，而不是我在手动检查元素时看到的内容。请问这是什么原因，有什么解决方法吗？

回答：这个问题可能是由于网页中的内容是通过JavaScript动态加载的，而Selenium默认只能获取到页面的静态源代码。为了解决这个问题，你可以尝试以下几种方法：

等待页面加载完成：在使用Selenium获取页面内容之前，可以使用WebDriverWait方法等待页面加载完成。例如，可以等待某个特定元素出现或某个特定条件满足后再获取页面内容。
使用execute_script方法执行JavaScript代码：Selenium提供了execute_script方法，可以执行JavaScript代码。你可以使用这个方法来模拟用户操作，例如滚动页面、点击按钮等，以触发JavaScript动态加载内容。
使用ActionChains类模拟鼠标操作：有些网页的内容是通过鼠标操作触发加载的，你可以使用ActionChains类来模拟鼠标操作，例如移动鼠标到某个元素上、点击鼠标右键等。
使用driver.page_source获取页面源代码：如果以上方法都无法获取到动态加载的内容，你可以尝试直接使用driver.page_source获取页面的源代码。这样可以确保你获取到的是完整的页面内容，包括动态加载的部分。

需要注意的是，以上方法可能需要根据具体情况进行调整和组合使用。另外，如果你使用的是Selenium的旧版本，可以考虑升级到最新版本，以获取更好的兼容性和功能支持。

推荐的腾讯云相关产品：腾讯云函数（Serverless云函数计算服务），腾讯云容器服务（容器化部署和管理），腾讯云数据库（高性能、可扩展的数据库服务），腾讯云CDN（全球加速分发网络），腾讯云安全产品（DDoS防护、Web应用防火墙等）。

腾讯云产品介绍链接地址：

腾讯云函数：https://cloud.tencent.com/product/scf
腾讯云容器服务：https://cloud.tencent.com/product/tke
腾讯云数据库：https://cloud.tencent.com/product/cdb
腾讯云CDN：https://cloud.tencent.com/product/cdn
腾讯云安全产品：https://cloud.tencent.com/product/safety

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Python 自动化指南（繁琐工作自动化）第二版：十二、网络爬取

选择器就像正则表达式：它们指定了要查找的模式——在本例中，是在 HTML 页面中，而不是在一般的文本字符串中。...例如，soup.select('p #author')将匹配任何具有author的id属性的元素，只要它也在元素内。您也可以在浏览器中右键单击元素并选择检查元素，而不是自己编写选择器。...然后这个帖子还会有一个“上一页”按钮，以此类推，创建一个从最近的页面到站点上第一个帖子的轨迹。如果你想要一份网站内容的拷贝，以便在不在线时阅读，你可以手动浏览每一页并保存每一页。...第一步：设计程序如果您打开浏览器的开发人员工具并检查页面上的元素，您会发现以下内容：漫画图像文件的 URL 由一个元素的href属性给出。...不过，如果你需要以某种方式与网页交互，比如说，依赖于更新页面的 JavaScript 代码，你将需要使用selenium而不是requests。

8.7K7 0

Python爬虫---爬取腾讯动漫全站漫画

）提取漫画地址选定了对象之后，就应该想办法来搞到漫画的地址了右击检查元素，粗略看一遍网页的源代码，这时我发现里面有很多连续的标签，我猜测每部漫画的地址信息就存储在这些标签里面随便打开一个...发现一页最多可以展示20章的漫画目录，要想更换显示还需要点击章节名上面的选项卡来显示其他章节的地址接下来就需要我们来检查网页元素想办法来获取章节地址了，同样右击检查元素在看到了源代码后，我发现了一个非常惊喜的事情...，所以它没办法使用右键查看网页源代码，但是使用快捷键[ctrl + shift +i]是可以看到的按下[ctrl + shift + i],检查元素通过第一次检查，可以发现网页的元素中只有前几张图片的地址信息...，腾讯动漫是以js异步加载来显示图片的，要想获取页面的全部图片，就必须要滑动滚动条，将全部的图片加载完成再进行提取，这里我选择selenium模块和chromedriver来帮助我完成这些操作。...，并拖动右侧的滑动条（模拟了手动操作，缓慢拖动是为了让图片充分加载），其中的sleep方法和网速有一定的关系，网速好的可以适当减少延时的时间，网速差可适当延长在写拖动滑动条的代码时，我尝试了非常多种拖动写法

6.2K3 0

数据技术|爬虫一下，百度付费文档轻松得，不用花钱，不用花钱，不用花钱！！！

我们以下载这篇文章为例： URL（网址）: 我想，看到这样的一个文章，如果爬取当前页面的内容还是很好爬的吧。感觉so easy！...至少我当时是这么想的，但是当把文章翻到最下方的时候，我看到了如下内容：呃….需要点击“继续阅读”才能显示后续的内容，我单爬这一页内容，是爬不到后续的内容的。...问题：获取当前页的内容好办，怎么获取接下来页面的内容？带着这个思考，Selenium神器走入了我的视线。二、预备知识 Selenium介绍 Selenium是什么？一句话，自动化测试工具。...下面的代码实现了模拟提交搜索的功能，首先等页面加载完成，然后输入到搜索框文本，点击提交，然后使用page_source打印提交后的页面的源代码。全自动的哦，程序操控！是不是很酷炫？...打开浏览器，效果是这样的： Selenium就先介绍这么多，对于本次实战内容，已经足够~~ 三、百度文库爬虫之前我卖了个关子，接下来我可以告诉大家哪怕你不懂xpath的知识，也能很轻松地在python

57.2K9 2

python实战案例

在源代码处搜索呈现的数据，无法找到。熟练使用浏览器抓包工具： Chrome 浏览器右键检查或者 F12，上方大类选择 Network；刷新页面，此时所有返回的请求都在此处显示。...#将服务器返回的内容直接处理成json()，按照python字典方式输出 resp.close() #关闭请求 #总结，对于POST请求，发送的数据必须放在字典中，通过data...#print(resp.text) #检查页面源码 page_content = resp.text #保存源代码至变量 #解析数据 #正则表达式定位，建议找需要数据的上几层标签做定位...：抓取优美图库的图片**(已失效，仅可参考) # 1.拿到主页面的源代码，然后提取到子页面的链接地址，href # 2.通过href拿到子页面的数据内容，提取图片的下载地址，img->src...import Keys import time web = Chrome() web.get("http://lagou.com") # 点击页面中的某个元素，通过在页面检查元素，复制xpath el

3.4K2 0

Selenium自动化测试技巧

但自动化测试的目的不是完全摆脱手动测试，而是最大程度地减少手动运行的测试。自动化测试使您可以快速测试多语言站点，还可以提高测试执行速度。自动化测试的过程很简单，请参考：自动化测试生命周期。...Selenium是开放源代码工具之一，它在应用程序测试方面提供了开放源代码工具的所有优点。 Selenium是用于测试的一套Selenium工具。...此外，它是一个面向对象的类，它充当被测应用程序页面的接口。为简化起见，PageObject是一种面向对象的设计模式，并且将网页定义为类。页面上的不同元素将成为变量。用户交互被用具体的方法实现。...网页=类别页面上的各种元素=变量用户互动=方法 PageObject的优点通过较小的UI调整，它有助于建立一个健壮的框架。测试代码和页面代码是分开的。它们可靠且易于维护。该脚本是可读的。...该代码是可重用的。几乎完全消除重复。提倡wait避免sleep 利用wait代替sleep。了解显式和隐式等待，还有Thread.sleep()逻辑。然后，为什么wait等待而不是sleep。

1.6K2 0

技术分享 | Web 控件定位与常见操作

在做 Web 自动化时，最根本的就是操作页面上的元素，首先要能找到这些元素，然后才能操作这些元素。工具或代码无法像测试人员一样用肉眼来分辨页面上的元素。...的检查模式 → Console 也可以在当前页面检测 css_selector 是否正确，输入$(‘css selector 表达式’)即可：元素中会出现文字，比如下面的分类，可以利用这段文字进行定位...常见操作 Selenium 常见操作有：输入、点击、清除关闭窗口、浏览器获取元素属性获取网页源代码、刷新页面设置窗口大小输入、点击、清除在 Selenium 中对应的方法分别是 send_keys...get_attribute(‘value’)，元素的坐标 location，元素的大小 size Python 版本 import logging from selenium import webdriver...：百度一下 (902, 188) (108, 44) Python 版本网页源代码 page_source，刷新页面 refresh() import logging from selenium import

1.3K2 0

技术分享 | Web 控件定位与常见操作

原文链接在做 Web 自动化时，最根本的就是操作页面上的元素，首先要能找到这些元素，然后才能操作这些元素。工具或代码无法像测试人员一样用肉眼来分辨页面上的元素。...可以定位绝大多数元素，但是XPath采用从上到下的遍历模式，速度并不快，而 css_selector 采用样式定位，速度要优于 XPath，而且语法更简洁：下面是 Selenium 使用 css_selector...常见操作 Selenium 常见操作有：输入、点击、清除关闭窗口、浏览器获取元素属性获取网页源代码、刷新页面设置窗口大小输入、点击、清除在 Selenium 中对应的方法分别是 send_keys...get_attribute('value')，元素的坐标 location，元素的大小 size Python 版本 import logging from selenium import webdriver...：百度一下 (902, 188) (108, 44) Python 版本网页源代码 page_source，刷新页面 refresh() import logging from selenium import

1.1K1 0

新闻类网页正文通用抽取器（一）——项目介绍

项目现状在论文中描述的正文提取基础上，我增加了标题、发布时间和文章作者的自动化探测与提取功能。最后的输出效果如下图所示： ?...本项目取名为抽取器，而不是爬虫，是为了规避不必要的风险，因此，本项目的输入是 HTML，输出是一个字典。请自行使用恰当的方法获取目标网站的 HTML。...本项目的测试代码在test文件夹中本项目的输入 HTML 为经过 JavaScript 渲染以后的 HTML，而不是普通的网页源代码。所以无论是后端渲染、Ajax 异步加载都适用于本项目。...当然，你可以使用 Puppeteer/Pyppeteer、Selenium 或者其他任何方式获取目标页面的JavaScript渲染后的源代码。...允许自定义时间、作者的提取Pattern 优化内容提取速度测试更多新闻网站 …… 论文修订在使用 Python 实现这个抽取器的过程中，我发现论文里面的公式和方法存在一些纰漏，会导致部分节点报错。

1.5K2 0

技术分享 | Web 控件定位与常见操作

原文链接在做 Web 自动化时，最根本的就是操作页面上的元素，首先要能找到这些元素，然后才能操作这些元素。工具或代码无法像测试人员一样用肉眼来分辨页面上的元素。...可以定位绝大多数元素，但是XPath采用从上到下的遍历模式，速度并不快，而 css_selector 采用样式定位，速度要优于 XPath，而且语法更简洁：下面是 Selenium 使用 css_selector...常见操作 Selenium 常见操作有：输入、点击、清除关闭窗口、浏览器获取元素属性获取网页源代码、刷新页面设置窗口大小输入、点击、清除在 Selenium 中对应的方法分别是 send_keys...get_attribute('value')，元素的坐标 location，元素的大小 size Python 版本 import logging from selenium import webdriver...：百度一下 (902, 188) (108, 44) Python 版本网页源代码 page_source，刷新页面 refresh() import logging from selenium import

1.1K3 0

Python 爬虫（四）：Selenium 框架

当我们想要操作一个元素时，首先需要找到它，Selenium 提供了多种元素定位方式，我们以 Chrome 浏览器 Headless 方式为例。...("//input[@name='fname']") 4 等待事件 Web 应用大多都使用 AJAX 技术进行加载，浏览器载入一个页面时，页面内的元素可能会在不同的时间载入，这会加大定位元素的困难程度...4.1 显示等待 WebDriverWait 配合该类的 until() 和 until_not() 方法，就能够根据判断条件而进行灵活地等待了。...它主要流程是：程序每隔 x 秒检查一下，如果条件成立了，则执行下一步操作，否则继续等待，直到超过设置的最长时间，然后抛出 TimeoutException 异常。...https://github.com/ityard/python-demo/tree/master/selenium-163-demo

1.1K2 0

使用Python轻松抓取网页

首先需要从页面源获取基于文本的数据，然后将其存储到文件中并根据设置的参数对输出进行排序。使用Python进行网页抓取时还有一些更高级功能的选项，这些将在最后概述，并提供一些使用上的建议。...从Javascript元素中抓取数据需要更复杂的Python使用方法及逻辑。 ●避开抓取图像。图像可以直接用Selenium下载。...在继续之前，让我们在真实的浏览器中访问所选的URL。然后使用CTRL+U(Chrome)打开页面源代码或右键单击并选择“查看页面源代码”。找到嵌套数据的“最近”类。...您需要检查我们获得的数据是不是分配给指定对象并正确移动到数组的。检查您获取的数据是否正确收集的最简单方法之一是使用“print”。...我们的第一个参数为我们即将创建的文件分配一个名称和一个扩展名。添加扩展名是必要的，否则“pandas”将输出一个没有扩展名的文件，并且必须手动更改。“索引”可用于为列分配特定的起始编号。

13.2K2 0

illenium什么水平_尼采读本

大家好，又见面了，我是你们的朋友全栈君。...这个开销包括编写和修改源代码，而源代码指的是构建出用来做自动化测试的程序的源代码。 WHERE, 在什么地方进行自动化测试自动化测试的执行，依靠的是机器。那么自动化测试必将在“机器”上进行。...Python 语言的选择，便捷测试人员的编程能力普遍不是很强，而Python作为一种脚本语言，不仅功能强大，而且语法优美，支持多种自动化测试工具，而且学习上手比较容易。...当然，如果您的机器处于非接入互联网的环境，您可以事先下载 Selenium 的 Python 安装包，再进行手动安装。...Page Object模式是Selenium中的一种测试设计模式，主要是将每一个页面设计为一个Class，其中包含页面中需要测试的元素（按钮，输入框，标题等），这样在Selenium测试页面中可以通过调用页面类来获取页面元素

3.6K2 0

Selenium Firefox驱动程序：使用Firefox浏览器自动进行测试

每个浏览器都有一个独特的引擎，负责呈现网站的UI。Gecko一直是浏览器引擎，负责通过Mozilla Firefox浏览器显示Web元素。...尽管不是最受欢迎的浏览器，但Mozilla Firefox 自2002年问世以来一直是浏览器大战中的知名参与者。Firefox在Chrome之后仍然占据着很大的浏览器市场份额。...实际上，许多同事更喜欢Mozilla Firefox作为默认浏览器，而不是Google Chrome。让我们看看从2019年6月到2020年7月的浏览器市场份额。 ?...这些框架也可以与C＃和Selenium测试套件一起使用。 36% NUnit中的断言有助于使代码更具模块化，从而减少了对源代码的维护。这是NUnit测试的基本执行流程。...新页面打开后，将使用EqualTo约束将预期的窗口标题与当前页面的标题进行比较。如果标题不匹配，则引发断言。 ?

8.5K3 0

python爬虫入门（五）Selenium模拟用户操作

同时考虑到百度家的爬虫有可能会被误伤，想想市场部门每月几十万的投放，于是写了个脚本，通过 hostname 检查下这个 ip 是不是真的百度家的，对这些 ip 设置一个白名单。...小莫看到验证码有些傻脸了，不过也不是没有办法，先去学习了图像识别（关键词 PIL，tesseract），再对验证码进行了二值化，分词，模式训练之后，总之最后识别了小黎的验证码（关于验证码，验证码的识别，...Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，...WebDriver 有点儿像可以加载网站的浏览器，但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素，与页面上的元素进行交互 (发送文本、点击等)，以及执行其他动作来运行网络爬虫...# 打印网页渲染后的源代码 print driver.page_source # 获取当前页面Cookie print driver.get_cookies() # ctrl+a 全选输入框内容

2.5K3 0

为什么用Python爬取网页数据，在检查net work中很多和教程上不一样？

图片很多同学们在初学python的时候，都会遇到这个问题：在使用python进行网页数据爬取时，在浏览器的"Network"(网络)选项卡中可能无法看到与视频教程或其他参考资料中显示的相同结果，经过各种对比...在网络选项卡中，我们可能只能看到初始页面加载的请求，而无法看到后续通过JavaScript加载的内容，所以导致了我们在在网络选项卡中缺少了部分内容。...1.检查页面源代码 查看页面的源代码，确保我们此时需要的数据确实存在于HTML中。...不过，有的时候，我们可能需要查找异步加载的数据，使用浏览器的开发者工具中的"Elements"(元素)选项卡来检查页面结构，看看是否能解决该问题。...2.模拟浏览器行为主要是通过模拟浏览器行为，比如JavaScript的执行，可以获取到动态加载的内容，我们可以使用Selenium等工具来自动化浏览器并获取完整的页面内容。

4215 0

Python3网络爬虫(十一)：爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

如果提交时这个值不在表单处理页面上，服务器就有理由认为这个提交不是从原始表单页面上提交的，而是由一个网络机器人直接提交到表单处理页面的。...因为 Selenium 可以获取访问页面的内容，所以它可以区分页面上的可见元素与隐含元素。通过 is_displayed() 可以判断元素在页面上是否可见。 ...如果你从网络服务器收到的页面是空白的，缺少信息，或其遇到他不符合你预期的情况（或者不是你在浏览器上看到的内容），有可能是因为网站创建页面的 JavaScript 执行有问题。...检查正常浏览器提交的参数。如果你准备向网站提交表单或发出 POST 请求，记得检查一下页面的内容，看看你想提交的每个字段是不是都已经填好，而且格式也正确。...你要么等待你的 IP 地址从网站黑名单里移除，要么就换个 IP 地址。如果你确定自己并没有被封杀，那么再检查下面的内容：确认你的爬虫在网站上的速度不是特别快。

2.7K7 0

UI自动化问题汇总

如何搭建UI自动化框架答: 搭建UI自动化框架时,使用的是PO设计模式,也就是把每一个页面所需要操作的元素和步骤封装在一个页面类中。...浏览器通过请求的内容执行对应动作 (5)浏览器再把执行的动作结果通过浏览器驱动程序返回给测试脚本补充Selenium原理: 我们使用Selenium实现自动化测试，主要需要3个东西 (1)测试脚本，可以是...什么是断言和验证答: 断言（assert）：测试将会在检查失败时停止，并不运行后续的检查优点：可以直截了当的看到检查是否通过缺点：检查失败后，后续检查不会执行，无法收集那些检查结果状态验证（vertify...使用Public而不是早期版本的global来声明变量。另外，对常量的声明必须带上类型，如前面的As String。 (3)变量命名规范变量命名应该简单，应尽量使用缩写。...因此，我们可以自动化我们在屏幕上看到的任何内容它可以自动化Web和Windows应用程序 1.

3.3K6 1

Python3网络爬虫(十一)：爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

第一种是表单页面上的一个字段可以用服务器生成的随机变量表示。如果提交时这个值不在表单处理页面上，服务器就有理由认为这个提交不是从原始表单页面上提交的，而是由一个网络机器人直接提交到表单处理页面的。...因为 Selenium 可以获取访问页面的内容，所以它可以区分页面上的可见元素与隐含元素。通过 is_displayed() 可以判断元素在页面上是否可见。...如果你从网络服务器收到的页面是空白的，缺少信息，或其遇到他不符合你预期的情况（或者不是你在浏览器上看到的内容），有可能是因为网站创建页面的 JavaScript 执行有问题。...检查正常浏览器提交的参数。如果你准备向网站提交表单或发出 POST 请求，记得检查一下页面的内容，看看你想提交的每个字段是不是都已经填好，而且格式也正确。...你要么等待你的 IP 地址从网站黑名单里移除，要么就换个 IP 地址。如果你确定自己并没有被封杀，那么再检查下面的内容：确认你的爬虫在网站上的速度不是特别快。

1.8K3 0

软件测试人工智能|熟练使用web控件定位技巧，提升测试工作效率！

简介在做 Web 自动化时，最根本的就是操作页面上的元素，首先要能找到这些元素，然后才能操作这些元素。工具或代码无法像测试人员一样用肉眼来分辨页面上的元素。...可以使用 chrome 的检查模式 -> Console，输入$x('XPath 表达式')即可。...通过 css_selectorXPath 可以定位绝大多数元素，但是 XPath 采用从上到下的遍历模式，速度并不快，而 css selector 采用样式定位，速度要优于 XPath，而且语法更简洁。...常见操作Selenium 常见操作有：输入、点击、清除。关闭窗口、浏览器。获取元素属性。获取网页源代码、刷新页面。设置窗口大小。...：INFO:root:百度一下INFO:root:百度一下INFO:root:{'x':844,'y':188}INFO:root:{'height':44,'width':108}获取网页源代码、刷新页面网页源代码

1331 0

教程｜Python Web页面抓取：循序渐进

今天，要为大家带来Python中Web页面的抓取教程。许多人看到代码就觉得头疼或是特别困难，其实Web爬虫是非常简单的。...回归到编码部分，并添加源代码中的类：提取3.png 现在，循环将遍历页面源中所有带有“title”类的对象。...然后可以将对象名称分给先前创建的列表数组“results”，但是这样会将带有文本的标记带到一个元素中。大多数情况下，只需要文本本身而不需任何其他标签。...输出数据 Python页面抓取需要对代码进行不断的检查输出1.jpg 即使在运行程序时没有出现语法或运行错误，也仍然可能存在语义错误。...创建长时间循环，重新检查某些url并按设置的间隔爬取数据，确保数据的时效性。 ✔️最后，将代理集成到web爬虫，通过特定位置的使用许可获取可能无法访问的数据。接下来内容就要靠大家自学了。

9.2K5 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭