如何使用Beautiful Soup将此文本驻留在标记中？

我正在尝试抓取一个网页，并使用Python3.6中的Beautiful Soup和requests模块检索网页上嵌入的视频的URL。当我在Chrome中查看网页上的超文本标记语言时，我可以看到视频的.mp4链接。但是当我使用requests和Beautiful Soup获取页面时，我找不到"video“节点。特别是，我想要抓取这个网页- http://videolectures.net&

浏览 25提问于2020-08-26得票数 4

1回答

我在使用漂亮的汤查找xml中的<name></name>时遇到问题

、

我正在尝试使用beautifulsoup.name获取漂亮的汤返回文本。但它只是给了我一个美丽汤对象的文档。对于如何使用Beautiful返回XML文件中的文本，有什么建议吗？import BeautifulSoup as bsoupsoup = bsoup(f) But I'

浏览 3提问于2014-06-28得票数 0

回答已采纳

2回答

Python3:从字符串中移除超文本标记语言，所有的例子都是简单的“仅标签”移除

这是一个字符串： Blah Blah Blah <div><div>sometext</div></div> (我想要的)-删除所有HTML后剩下的内容，包括内部文本，以便我获得： Blah BlahBlah (我不想要的)我找到的所有示例都只是针对标签的，它是这样做的： Blah Blah Blah sometext 我需要任何曾经包装在HTML标签中的东西被移除，即使它是纯文本。

浏览 36提问于2021-02-06得票数 1

回答已采纳

3回答

如何使用Beautiful Soup提取HTML标记中的特定文本？

、、、、

我有一个这样的HTML标记： "<li><span class="bold-title">Starts:</span> October 2013</li>

浏览 0提问于2013-05-25得票数 0

回答已采纳

1回答

Python web抓取<a>之间的访问值</a>

、

假设我有这样的html代码：<a aria-current="page" aria-label="Current page" href="https://name_webpage.com/">1</a> 如何使用

浏览 2提问于2021-02-18得票数 0

2回答

在获取table HTML数据时，如何在Selenium Python中获取一个没有文本值的```<td>```标记？

、

并不是每个<td>都有文本值，而且每一行都不同(不同列中的无文本值) 因此，当我使用row.text时，它会返回一个列表，忽略没有文本的列表。每一行的列表具有不同的长度。这不利于在excel文件中写入列表。如果我这样做的话，一个接一个的<td>组成一个列表。这太慢了。cbd</a></td> <tr> <td>ttt</td>

浏览 24提问于2019-06-10得票数 2

回答已采纳

1回答

如何使用Beautiful Soup检索<strong>标记后面的文本？

、

我尝试使用Beautiful Soup在所有strong元素之后拉取所有文本值。strong><br/>$ 1,140.00我想将以下所有值放入一个列表中：我一直在使用以下内容将我想要的数据值的标题拉到列表中：import re

浏览 0提问于2020-11-17得票数 0

2回答

美汤找不到桌子

、

我正在尝试用Python和Beautiful Soup从网页上的一个表格中收集一些数据。然而，当我从页面中进行选择时，我得到的结果与在浏览器中得到的结果不同。具体地说，这些表完全缺失。这是我从Beautiful Soup得到的输出： ? 我尝试过使用urllib而不是request，也尝试过使用不同的超文本标记语言解析器(html.parser和lxml)。关于这里可能发生的事情以及我如何绕

浏览 15提问于2020-04-25得票数 0

回答已采纳

1回答

Pandas:将列表理解转换为使用应用

、、

我目前有一个包含beautiful_soup列的Pandas DataFrame (它包含一个BeautifulSoup对象)。我想为几个超文本标记语言标签(例如，img标签的数量)添加一个列。例如，这是我使用列表理解的旧代码：但是使用a

浏览 6提问于2017-08-15得票数 0

1回答

使用Beautiful Soup从字符串中剥离html标记

、

有没有人有一些示例代码来演示如何使用Python的Beautiful Soup从文本字符串中剥离除某些以外的所有html标记？

浏览 0提问于2010-12-13得票数 5

回答已采纳

2回答

很难用漂亮的汤刮网

、、

我正在尝试使用Beautiful Soup来提取工作的头衔。span标记中的标题与文本相同。文本是'Barista‘，但标题也是。到目前为止，我一直在使用.findall，但我不知道它是如何工作的。

浏览 28提问于2021-07-26得票数 0

回答已采纳

1回答

使用BeautifulSoup在网页上查找特定文本

、、、、

我正在尝试保存一个使用Python 3和Beautiful Soup 4的网站上的电影列表。问题是，我对Python和BS非常陌生，我真的不知道从哪里开始。我不知道如何提取那块数据。我一直在谷歌搜索，似乎Beautiful Soup在试图查找标签时效果最好，但我只需要它来找到一个文本列表，而不是在任何特定的标签中(该网站不是专业设计的)。有没有办法让Beautiful Soup和Python提取“过去的电影：”和“对

浏览 3提问于2016-05-12得票数 6

回答已采纳

1回答

BeautifulSoup :从html标记中提取/解析数据

、、、

我试图使用Python代码中的Beautiful从url中提取体育数据。这个数据源的问题是数据出现在html标记中。具体来说，这个标签的标题是"“print(soup.match)<match

浏览 5提问于2021-04-08得票数 0

回答已采纳

2回答

在Python 3中，抓取隐藏在标签中的网页上的所有文本

、、

我需要抓取一个网页()，但我遇到了一个问题--我需要在首页显示的文本绝对隐藏在许多不同的格式化标记中。我知道如何使用Beautiful Soup抓取常规页面，但这并不能满足我的需要(例如，文本丢失，一些标签通过...)from bs4 import BeautifulSoup'w', encoding='utf-8') as outfile: for url in url

浏览 1提问于2014-09-09得票数 0

2回答

抓取动态超文本标记语言(YouTube注释)

、、、、

有了Beautiful Soup和Request Library，我可以抓取超文本标记语言的内容，但不能抓取JavaScript或AJAX调用的内容。import requests url = 'https:/

浏览 1提问于2017-11-01得票数 3

1回答

在BeautifulSoup中使用.select()从网页中拉取数字时使用哪些CSS选择器？

、

我正在尝试使用python从一个网页上拉取当前的股票价格。我在使用Beautiful Soup拉取数字时遇到了问题。我不知道该使用什么CSS选择器。注意，我想要的数字是368.45：下面是我的python3代码的精髓(如果有必要的话，我使用Ubuntu )：soup = bs4.BeautifulSoup(res.text, "

浏览 54提问于2018-06-19得票数 1

2回答

通过python加载网站内容

、

如何通过python从网站加载特定内容?例如，我想加载博客的一些帖子并将它们显示在我自己的site.How中。我可以这样做吗？

浏览 2提问于2011-03-25得票数 1

1回答

当给定从Selenium webdriver获得的超文本标记语言数据时，BeautifulSoup如何从超文本标记语言中获取文本

、、、

我能够从页面中获得超文本标记语言的内容，但是当我可视化它的BeautifulSoup内容时，数据似乎缺少文本信息，而我所看到的只有脚本信息。(Image: soupstr output)然而，当我显式地调用.text到Beautiful soup对象时，我得到了所有的文本。(图片: souptext输出) Code snippet Image: soupstr output Image: souptext output 如何在Python上使用

浏览 22提问于2021-02-24得票数 -1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云