开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么Beautiful Soup没有打印出网站上的文本(路透社)，即使文本显然在网站上？

Beautiful Soup 是一个用于解析 HTML 和 XML 文档的 Python 库。它提供了一种方便的方式来遍历文档树、搜索特定元素以及提取所需数据。

如果 Beautiful Soup 没有打印出网站上的文本，即使文本显然在网站上，可能有以下几个原因：

网站内容是通过 JavaScript 动态加载的：Beautiful Soup 只能解析静态的 HTML 和 XML 文档，无法处理通过 JavaScript 动态加载的内容。在这种情况下，可以考虑使用 Selenium 或其他类似的工具来模拟浏览器行为，等待页面加载完成后再提取所需数据。
网站内容是通过 AJAX 请求获取的：如果网站使用 AJAX 技术加载内容，Beautiful Soup 无法直接获取到这些内容。可以通过分析 AJAX 请求的 URL 和参数，使用 Python 的 requests 库发送相应的请求，然后解析返回的数据。
网站内容被动态生成或修改：有些网站会使用 JavaScript 动态生成或修改页面内容，这样 Beautiful Soup 在解析时可能无法获取到完整的文本。可以尝试使用开发者工具（如 Chrome 开发者工具）查看网站的实际 HTML 结构，确认所需文本是否存在于页面中，以及是否被 JavaScript 修改。
网站内容被隐藏或加密：有些网站为了防止被爬虫获取数据，会采取一些隐藏或加密手段。这可能导致 Beautiful Soup 无法正确解析文本。在这种情况下，可以尝试分析网站的加密算法或隐藏规则，并编写相应的代码来解密或解除隐藏。

综上所述，如果 Beautiful Soup 没有打印出网站上的文本，可能是因为网站内容是通过 JavaScript 动态加载、AJAX 请求获取、动态生成或修改、被隐藏或加密等原因。针对具体情况，可以采取相应的解决方案来获取所需文本。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

数据科学家应当了解的15个Python库

例如，使用者可以提取某城市所有餐厅的评论或是收集网购网站上某一种产品的所有评论。...Beautiful Soup www.crummy.com Beautiful Soup是另一个可以用来搜刮网站内容的Python库。...业界普遍认为，学习Beautiful Soup所需时间比学习Scrapy所需时间要短很多。除此之外，Beautiful Soup更适合应用于规模相对较小的问题和/或一次性的任务。...使用者在感兴趣的网站上已经进行了交互行为之后，Selenium一般能派上用场。比如说，使用者可能需要在网站上注册一个账户，登陆自己的账户，再点击几个按钮或是链接才能找到自己想要的内容。...Spacy spacy.io Spacy可能没有上文的两个库一样名声远扬。Numpy和Pandas主要用于处理数值型数据和结构型数据，而Spacy则能够帮助使用者将自由文本转化为结构型数据。

8660 0

Python-数据解析-正则表达式

非结构化数据：数据结构不规则或不完整，没有预定义的数据模型，不方便使用数据库二维逻辑来表现的数据，包括所有格式的办公文档、文本、HTML、图像等。...Python 支持一些解析网页的技术，分别为正则表达式、XPath、Beautiful Soup 和 JSONPath。 ① 针对文本的解析，有正则表达式。...② 针对 HTML/XML 的解析，有 XPath、Beautiful Soup、正则表达式。 ③ 针对 JSON 的解析，有 JSONPath。 ?...XPath 和 Beautiful Soup 基于 HTML/XML 文档的层次结构来确定到达指定节点的路径，所以它们更适合处理层级比较明显的数据。...从网站上爬取下来的网页源代码中都有汉字，如果要匹配这些汉字，就需要知道其对应的正则表达式。

9813 0

独家 | 手把手教你用Python进行Web抓取（附代码）

对于web抓取，有一些不同的库需要考虑，包括： Beautiful Soup Requests Scrapy Selenium 在本例中我们使用Beautiful Soup。...你可以使用Python包管理器 pip 安装Beautiful Soup： pip install BeautifulSoup4 安装好这些库之后，让我们开始吧！...刷新网页后，页面检查工具的网络选项卡使用Beautiful Soup解析网页html 现在您已经查看了html的结构并熟悉了将要抓取的内容，是时候开始使用Python了！...但是，其中一些数据需要进一步清理以删除不需要的字符或提取更多信息。数据清理如果我们打印出变量company，该文本不仅包含公司名称，还包含描述。...此列中还有一个链接指向网站上的另一个页面，其中包含有关该公司的更多详细信息。我们将在稍后使用它！

4.7K2 0

Python爬虫之图片爬取

关于BeautifulSoup：简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。...Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。...Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。...你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。...Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

1.5K4 0

Python 爬虫：爬取小说花千骨

Beautiful Soup为python的第三方库，可以帮助我们从网页抓取数据。...3.一点点HTML和CSS知识（没有也将就，现学就可以） 2.爬取小说花千骨 1.爬虫思路分析本次爬取小说的网站为136书屋。...按F12打开审查元素菜单。可以看到网页前端的内容都包含在这里。我们的目的是要找到所有目录的对应链接地址，爬取每个地址中的文本内容。有耐心的朋友可以在里面找到对应的章节目录内容。...我们的思路是先在目录页中爬取所有章节的链接地址，然后再爬取每个链接对应的网页中的文本内容。说来，就是比单章节爬虫多一次解析过程，需要用到Beautiful Soup遍历文档树的内容。...', class_= 'box1').find_next('div') # 遍历ol的子节点，打印出章节标题和对应的链接地址 for link in soup_texts.ol.children:

1.4K5 0

使用Python轻松抓取网页

02#Beautiful Soup Beautiful Soup是一个Python库，它与解析器一起从HTML中提取数据，甚至可以将无效标记转换为解析树。...>Oxylabs Blog 由于其导航、搜索和修改解析树方法均很简单，Beautiful Soup即使对于初学者也是十分不错的一个库，并且通常可以节省开发人员数小时的工作时间。...然而，与Beautiful Soup不同的是，这个库针对设计的不好的HTML可能会出现解析不了的情况。...，然后可用内置方法甚至Beautiful Soup对网页内容进行解析。...Part 5 导出数据 5微信图片_20210918091531.png 即使在运行我们的程序时没有出现语法或运行时的错误，仍然可能存在语义错误。

13.3K2 0

使用 Beautiful Soup 解析网页内容

安装Beautiful Soup Beautiful Soup是一个Python的HTML解析框架，我们可以利用它方便的处理HTML和XML文档。...Beautiful Soup有3和4两个版本，目前3已经停止开发。所以我们当然还是学习最新的Beautiful Soup 4. 首先第一件事情就是利用pip安装Beautiful Soup。...如果需要详细文档的话可以参考Beautiful Soup中文文档，这是难得的不是机翻的文档。...糗事百科的网站就对没有UA的请求直接拒绝掉。所以如果我们要爬这样的网站，首先需要把请求伪装成浏览器的样子。...动态语言的优势就是使用灵活，缺点就是没有代码提示。虽然总共代码没几行，但是还是花了我一番功夫。

3K9 0

Python爬虫快速入门，BeautifulSoup基本使用及实践

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。...网上有很多的学习资料，但是超详细学习内容还是非官网莫属，资料传送门：英文官网：https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 中文官网：https...因为BS4在解析数据的时候是需要依赖一定的解析器，所以还需要安装解析器，我们安装强大的lxml： pip install lxml 在python交互式环境中导入库，没有报错的话，表示安装成功。...3者之间的区别 # text和get_text()：获取标签下面的全部文本内容 # string：只能获取到标签下的直系文本内容 ? 获取标签属性值 1、通过选择器来获取 ?...BeautifulSoup实战下面介绍的是通过BeautifulSoup解析方法来获取某个小说网站上古龙小说名称和对应的URL地址。

2.8K1 0

这才是简单快速入门Python的正确姿势！

对于初学者而言，最容易理解，并且使用简单的方法就是使用Beautiful Soup提取感兴趣内容。...我们很幸运，Beautiful Soup也是有中文的官方文档。...知道这个信息，我们就可以使用Beautiful Soup提取我们想要的内容了，编写代码如下：在解析html之前，我们需要创建一个Beautiful Soup对象。...如果我们使用Beautiful Soup匹配到了下面这个标签，如何提取它的href属性和标签里存放的章节名呢？...（3）整合代码每个章节的链接、章节名、章节内容都有了。接下来就是整合代码，将获得内容写入文本文件存储就好了。编写代码如下：很简单的程序，单进程跑，没有开进程池。下载速度略慢，喝杯茶休息休息吧。

1.4K9 0

要找房，先用Python做个爬虫看看

我将使用Sapo网站上一个简单的搜索结果页面，预先指定一些参数(如区域、价格过滤器、房间数量等)来减少任务时间，或者直接在Lisbon查询整个结果列表。然后，我们需要使用一个命令来从网站上获得响应。...我将使用Beautiful Soup来处理我们将要获取的html。始终确保你试图访问的站点允许抓取。你可以通过添加“/robots.txt”到原始域来确定。...，这就是为什么我将定义一个标题来传递get命令，这相当于使我们对网站的查询看起来像是来自一个实际的浏览器。...先别害怕...看下去就会明白的！好了，我们已经准备好开始探索我们从网站上得到的东西。我们需要定义Beautiful Soup对象，它将帮助我们阅读这个html。...如果它找到一个没有房产容器的页面，我们将加段代码来中止循环。页面命令是地址末尾的&pn=x，其中 x 是结果页码。代码由两个for循环组成，它们遍历每个页面中的每个房产。

1.4K3 0

python之万维网

它使用了在处理HTML和XML这类结构化标记的基于事件的解析工作时非常常见的技术。我没有假定只掉用handle_data就能获得所有需要的文本，而是假定会通过多次调用函数获得多个文本块。...15.1.2 Beautiful Soup Beautiful Soup是个小模块，用来解析和经常在网上看到的那些乱七八糟而且不规则的HTML。...下载和安装beautiful Soup：下载BeautifulSoup.py文件，然后将它放置在python路径中。如果需要的话，还能下载带有安装脚本和测试的tar档案文件。...使用beautiful Soup的屏幕抓取程序 from urllib import urlopen from BeautifulSoup import BeautifulSoup text = urlopen...CGI是网络服务器可以将查询传递到专门的程序中并且在网页上显示结果的标准机制。它是创建万维网应用程序而不用编写特殊用途的应用服务器的简单方法。 Python CGI程序设计的关键工具是cgi模块。

1.1K3 0

精选 15 个顶级 Python 库，你必须要试试！

为什么我喜欢Python？对于初学者来说，这是一种简单易学的编程语言，另一个原因：大量开箱即用的第三方库，正是23万个由用户提供的软件包使得Python真正强大和流行。...BeautifulSoup 如果您从网站上提取了一些HTML，则需要对其进行解析以获取实际所需的内容。Beautiful Soup是一个Python库，用于从HTML和XML文件中提取数据。...它提供了导航，搜索和修改解析树的简单方法。它非常强大，即使损坏了，也能够处理各种HTML。相信我，HTML经常被破坏，所以这是一个非常强大的功能。...它的一些主要功能： Beautiful Soup会自动将传入文档转换为Unicode，将传出文档转换为UTF-8。您无需考虑编码。...Beautiful Soup位于流行的Python解析器（如lxml和html5lib）的顶部，使您可以尝试不同的解析策略或提高灵活性。

1.3K1 0

这15个顶级Python库，你必须要知道！

Simplejson Python中的本地json模块有什么问题？没有！实际上，Python的json是simplejson。...BeautifulSoup 如果您从网站上提取了一些HTML，则需要对其进行解析以获取实际所需的内容。Beautiful Soup是一个Python库，用于从HTML和XML文件中提取数据。...它提供了导航，搜索和修改解析树的简单方法。它非常强大，即使损坏了，也能够处理各种HTML。相信我，HTML经常被破坏，所以这是一个非常强大的功能。...它的一些主要功能： Beautiful Soup会自动将传入文档转换为Unicode，将传出文档转换为UTF-8。您无需考虑编码。...Beautiful Soup位于流行的Python解析器（如lxml和html5lib）的顶部，使您可以尝试不同的解析策略或提高灵活性。

1.2K2 0

网页抓取 - 完整指南

Web 抓取的最佳语言如何学习网页抓取？结论介绍 Web Scraping，也称为数据提取或数据抓取，是从网站或其他来源以文本、图像、视频、链接等形式提取或收集数据的过程。...在网络抓取的帮助下，你可以访问纽约时报、华盛顿邮报、经济时报等大型新闻机构的大量文章。...Beautiful Soup (Python)、Cheerio (JavaScript) 和 group (Java) 是 Web 解析的一些首选库。...让我们讨论这些： Python： Python 是开发人员中最流行的网络抓取语言，这要归功于它的简单性和大量的库和框架，包括 Scrapy 和 Beautiful Soup。...像 Jsoup 这样的库可以更容易地从网站上抓取数据。 Ruby：一种高级编程语言，带有 Nokogiri 和 Mechanize 等库，可以更轻松地从网站上抓取数据。

3.3K2 0

精选 15 个顶级 Python 库，你必须要试试！

大家好，我是辰哥~ 为什么我喜欢 Python ？...BeautifulSoup 如果您从网站上提取了一些HTML，则需要对其进行解析以获取实际所需的内容。Beautiful Soup是一个Python库，用于从HTML和XML文件中提取数据。...它提供了导航，搜索和修改解析树的简单方法。它非常强大，即使损坏了，也能够处理各种HTML。相信我，HTML经常被破坏，所以这是一个非常强大的功能。...它的一些主要功能： Beautiful Soup会自动将传入文档转换为Unicode，将传出文档转换为UTF-8。您无需考虑编码。...Beautiful Soup位于流行的Python解析器（如lxml和html5lib）的顶部，使您可以尝试不同的解析策略或提高灵活性。

9451 0

这15个顶级Python库，你必须要试试！

作者：Erik van Baaren 为什么我喜欢Python？...BeautifulSoup 如果您从网站上提取了一些HTML，则需要对其进行解析以获取实际所需的内容。Beautiful Soup是一个Python库，用于从HTML和XML文件中提取数据。...它提供了导航，搜索和修改解析树的简单方法。它非常强大，即使损坏了，也能够处理各种HTML。相信我，HTML经常被破坏，所以这是一个非常强大的功能。...它的一些主要功能： Beautiful Soup会自动将传入文档转换为Unicode，将传出文档转换为UTF-8。您无需考虑编码。...Beautiful Soup位于流行的Python解析器（如lxml和html5lib）的顶部，使您可以尝试不同的解析策略或提高灵活性。

7371 0

三大解析库的使用

Soup的使用同样的在使用前我们也要安装Beautiful Soup 没有安装的请自行安装。...首先导入模块：from bs4 import BeautifulSoup 这次我们直接用一个网站来试试，我选择的是猫眼网，你可以选择其他网站哦。...2.1初始化 BeautifulSoup()第一个参数为获取的网页内容，第二个参数为lxml，为什么是lxml？...因为Beautiful Soup在解析时依赖解析器，python自带的解析器，容错能力差，比较慢，所以我们使用第三方解析器lxml， prettify()是将获取的内容以缩进的方式输出，看起来很舒服如图...2.4获取文本属性 string为获取文本 attrs为获取属性 2.5方法选择器 find_all()返回的一个列表，匹配所有符合要求的元素如果我们想要获取ul可以这样写：soup.find_all

6241 0

15 个让新手爱不释手的 Python 高级库

为什么我喜欢 Python ？...Simplejson Python中的本地json模块有什么问题？没有！实际上，Python的json是simplejson。...BeautifulSoup 如果您从网站上提取了一些HTML，则需要对其进行解析以获取实际所需的内容。Beautiful Soup是一个Python库，用于从HTML和XML文件中提取数据。...它提供了导航，搜索和修改解析树的简单方法。它非常强大，即使损坏了，也能够处理各种HTML。相信我，HTML经常被破坏，所以这是一个非常强大的功能。...Beautiful Soup位于流行的Python解析器（如lxml和html5lib）的顶部，使您可以尝试不同的解析策略或提高灵活性。

8482 0

马斯克又出昏招、最疯狂的举动之一！给不喜欢的网站增加 5 秒延迟

《华盛顿邮报》于本周二测试了这些延迟，点击 X 网站上的目标链接之后，X 就将其发送到另一个网站，该中间链接将打开一个持续几秒钟的空白屏幕，从而形成一个“延迟打开目标链接”的效果。...Substack 同样遭到限流，这是一个运行自有短文本服务 Substack Notes 的邮件通讯平台。周二早些时候，一名用户率先在技术论坛 Hacker News 上提出了延迟问题。...HN 发帖者 xslowzone 昨天表示：“自从添加《纽约时报》延迟以来，我一直在跟踪该延迟，并且延迟如此一致，这显然是故意的。”...另一位网友看法也相同，“我认为 Twitter，呃，X，刚刚关闭了延迟，因为这个行为引起了媒体的广泛关注。我早些时候可以一遍又一遍地复现它，但现在我不能了。”...Twitter 前信任与安全主管 Yoel Roth 周二也在 Bluesky 上发帖，表示此番延迟事件“简直疯狂得令人难以置信，即使是对几乎已经没有下限的 Twitter 来说也太夸张了。”

2425 0

使用Python去爬虫

本文是笔者日常使用Python进行爬虫的简要记录。爬虫，简单说就是规模化地采集网页信息，因为网络像一张网，而爬虫做的事就像一只蜘蛛在网上爬，所以爬虫英文名就是spider。...讲如何布局、渲染网页的。 AJAX。如何延迟显示网页内容。常涉及到json模块。 DOM。抽象化的网页结构。常涉及到bs4（Beautiful Soup）、lxml模块。...常涉及到bs4（Beautiful Soup）、lxml模块。正则表达式。规则化地抽取文本。常涉及到re、bs4（Beautiful Soup）、lxml模块。基本上这些都是要了解的。...笔者将自己常用的代码整理如下：只用到GET方法，没有什么复杂的情况。 # urllib模块可以很方便地实现 GET 方法。...但是好在笔者目前还没有碰到过这种规模的任务，所以也没有用过Scrapy。下面只是从原理上大概探讨一下这种情形。比较常见的比如抓取一个网站上的所有图片。

1.6K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭