使用BeautifulSoup findall()拆分文本

BeautifulSoup是一个Python库，用于从HTML或XML文档中提取数据。其中的find_all()方法是BeautifulSoup库中的一个功能强大的方法，用于根据指定的标签名、属性、文本内容等条件来查找文档中的所有匹配项。

find_all()方法的语法如下：

find_all(name, attrs, recursive, string, **kwargs)

参数说明：

name：要查找的标签名，可以是字符串或正则表达式。如果传入True，则返回所有标签。
attrs：要查找的标签的属性，可以是字典或关键字参数。例如{'class': 'example'}表示查找class属性为'example'的标签。
recursive：是否递归查找，默认为True。如果设置为False，则只查找直接子节点。
string：要查找的标签的文本内容。
**kwargs：其他属性参数。

find_all()方法返回一个列表，包含所有匹配的标签。

使用find_all()方法可以实现对文本的拆分和提取。下面是一个示例代码：

from bs4 import BeautifulSoup

html = '''
<html>
<body>
    <div class="container">
        <h1>标题1</h1>
        <p>段落1</p>
        <h2>标题2</h2>
        <p>段落2</p>
    </div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')
div = soup.find('div', class_='container')
paragraphs = div.find_all('p')

for p in paragraphs:
    print(p.text)

以上代码会输出：

段落1
段落2

在这个例子中，我们首先使用BeautifulSoup解析了一个HTML文档。然后，通过find()方法找到了class为'container'的<div>标签。接着，使用find_all()方法找到了该<div>标签下的所有<p>标签，并将它们存储在一个列表中。最后，通过遍历列表，我们可以获取到每个<p>标签的文本内容。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云官网：https://cloud.tencent.com/
云服务器（CVM）：https://cloud.tencent.com/product/cvm
云数据库 MySQL 版：https://cloud.tencent.com/product/cdb_mysql
云原生应用引擎（TKE）：https://cloud.tencent.com/product/tke
云存储（COS）：https://cloud.tencent.com/product/cos
腾讯云区块链服务（BCS）：https://cloud.tencent.com/product/bcs
腾讯云物联网平台（IoT）：https://cloud.tencent.com/product/iotexplorer
腾讯云移动开发平台（MPS）：https://cloud.tencent.com/product/mps
腾讯云音视频处理（MPS）：https://cloud.tencent.com/product/mps
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云安全产品：https://cloud.tencent.com/product/security
腾讯云元宇宙产品：https://cloud.tencent.com/product/virtual-universe

使用BeautifulSoup从网页中刮取选定的标题和内部文本？

、、

源-一个博客帖子URL 我希望将标题标记的内部文本和标记中的主体副本都放入如下表输出中 H2;{H2 tag inner tex}; {p tag(s) inner text} H3;{H2 tag inner tex}; {p tag(s) inner text} H2;{H2 tag inner tex}; {p tag(s) inner text} H3;{H2 tag inner tex}; {p tag(s) inner text} H4;{H2 tag inner tex}; {p tag(s) inner text} ... H2、H3、H4标签的内容是需要的，这些标签中可能有多

浏览 9提问于2022-10-28得票数 0

回答已采纳

1回答

有没有办法从每个元素中获取所有特定的段落？

、

我正在尝试从给定的网站中获取所有段落，并在控制台中打印它们。到目前为止，我的代码可以接受包含段落的所有div。当我尝试编写一个循环来获取final_text的每个元素时，它只输出第一个段落。 import requests from bs4 import BeautifulSoup url = "https://www.vanityfair.com/style/society/2014/06/monica-lewinsky-humiliation-culture" source = requests.get(url) source_html = source.text

浏览 20提问于2020-04-10得票数 0

回答已采纳

2回答

从BS4 ResultSet中删除元素，如果它们位于另一个BS4 ResultSet中

、、、、

我正试着制作一个网络爬虫-刮刀器来获取新闻。我希望删除特定类中的元素。但是，问题是这个类嵌套在另一个类中。守则如下： import requests from bs4 import BeautifulSoup url = 'https://www.moneyreview.gr/life-and-arts/86916/mia-apli-lysi-gia-to-rochalito-to- kolpo-poy-sozei-chiliades-gamoys/' r1 = requests.get(url) coverpage = r1.content soup1 = Beauti

浏览 15提问于2022-08-27得票数 1

回答已采纳

1回答

美丽的汤没有在网站上显示所有的元素

、、、、

我正在为网站的解析器首先，我得到了所有的链接从网站导航通过网站 import requests from bs4 import BeautifulSoup def get_html(url): r = requests.get(url,'lxml') return r.text url='https://edp.by/' html=get_html(url) soup=BeautifulSoup(html, ) x = soup.findAll("div", {"class": "row mainmen

浏览 3提问于2019-06-06得票数 0

1回答

编辑--Python3美人汤从网站抓取元素

、、、

我正在尝试从Metacritc中提取这些链接中的“游戏名称”这就是我在这段代码中得到的结果： from requests import get from bs4 import BeautifulSoup from urllib.request import Request, urlopen url = "http://www.metacritic.com/browse/games/score/metascore/year/pc/filtered?sort=desc&year_selected=2018" req = Request(url, headers={'

浏览 2提问于2018-06-16得票数 0

1回答

使用Python从div类中的网页中提取文本

、

我试着从网页上获取歌曲文本。下面是我想要实现的两个版本，因为使用第一个版本，我只能从第一个<p>段落中获得文本，但有时在div类歌曲集中有几个<p>。在第二个版本中，我实现了这一点，但它包含了整个html。".text“只有在只有一个项目而没有几个项目时才有效(列表)。我在这里有点迷茫，也是Python和BeautifulSoup的新手，所以我非常感谢您的帮助。 #Extract the songtext only and save it in file url = urllib.request.urlopen('https://www.udo-

浏览 0提问于2018-11-30得票数 0

回答已采纳

1回答

从目标网站抓取产品和存储信息

、、

我是新手的网络抓取和寻找从目标的网站上拉产品数据。图像中突出显示的部分 ? 我已经能够获得产品名称和价格，但无法使用BeautifulSoup找到其余信息。例如，当检查邮政编码时，它显示带有data-test标签的邮政编码，但在搜索标签时找不到它。以前有没有人经历过这种情况，或者知道获取这些信息的方法？使用Python3和BeautifulSoup。不确定这个问题的最佳表达方式，所以如果您需要更多信息或我是否需要重新表达，请让我知道。 <a href="#" class="h-text-underline Link-sc-1khjl8b-0 j

浏览 16提问于2019-02-23得票数 1

回答已采纳

2回答

如何才能让Beautifulsoup从嵌套在div中的段落中打印文本？

、、

我对网页抓取和使用漂亮的汤4很陌生。我试着从嵌套在div下的标签中获得打印出来的文本。我可以让他们打印，但是标签仍然出现，美丽的汤不允许我使用.text函数从段落标签中提取文本。有没有更好的方法来做这件事，还是我做错了？ import requests from bs4 import BeautifulSoup as soup url = "https://www.wuxiaworld.com/novel/tales-of-demons-and-gods/tdg-chapter-1" headers = {'User-Agent': 'Mozilla/

浏览 0提问于2021-02-25得票数 1

回答已采纳

1回答

在用BeautifulSoup抓取图像时获取重复链接

、、、

我正在刮一个Prestashop网站，在那里我想得到一个列表URL的所有图像的一个产品。但是，我得到了重复的值(所有链接都重复自己)。我试过创建一本字典来删除重复的内容，但它似乎不起作用。而且，我似乎无法从引用号中删除span标记(解包装不起作用)--它一直返回'None‘属性，这令人困惑，因为所有产品都有一个引用号。我试过把结果变成字符串，但它不让我。以下是代码： testlink = 'https://trgovina.audiopro.si/si/bas-glave/36037-81020104.html' r = requests.get(testlink)

浏览 7提问于2021-12-11得票数 0

回答已采纳

1回答

标签之间没有空格的BeautifulSoup .children或.content

、

我希望标签的所有子标记之间没有空格。但是BeautifulSoups .contents和.children也返回标记之间的空格。 from bs4 import BeautifulSoup html = """ <div id="list"> <span>1</span> <a href="2.html">2</a> <a href="3.html">3</a> </div> """ sou

浏览 2提问于2019-05-07得票数 3

1回答

使用Python进行Web抓取-空白返回

、、、、

我试图从TrustPilot获取评论，但代码总是返回空白页和我指定的标题/类别。有人能帮我一下吗？ from bs4 import BeautifulSoup, SoupStrainer import pandas as pd driver= webdriver.Chrome() names=[] #List to store name of the product headers=[] #List to store price of the product bodies=[] ratings=[] #List to store rating of the product dates=[] #

浏览 2提问于2020-03-04得票数 0

1回答

在ul标签下的所有li标签中查找链接问题

、、、

我正在尝试获取ul标签下所有li标签中的链接 HTML代码： <div id="chapter-list" class="sbox" style=""> <ul> <li> <a href="https://example.com/manga/name/2"> <div class="chpbox"> <span class="chapternum"> Chapter 2 </span> </div> &

浏览 14提问于2022-06-16得票数 0

回答已采纳

2回答

使用BeautifulSoup从html中查找文本

、、、

我有以下.html： <li class="print text"> <span><em class="time"> <div class="time">1.29 s</div> </em><em class="status">passed</em>

浏览 1提问于2022-05-25得票数 0

回答已采纳

3回答

使用Scraping获取产品名称

、

下面是我的代码，以获得产品名称"RENU新鲜镜头解决方案120 ML“从url..this躺在p标签.我只需要这个名字。 import requests import lxml from bs4 import BeautifulSoup url = "http://www.lenskart.com/renu-fresh-lens-solution-100-ml.html" source = requests.get(url) data = source.content soup = BeautifulSoup(data, "lxml") pn =

浏览 4提问于2016-12-26得票数 0

回答已采纳

5回答

BeautifulSoup webscraping find_all( )：找到精确匹配

、、、、

我使用Python和BeautifulSoup进行web抓取。假设我有下面的html代码要刮： <body> <div class="product">Product 1</div> <div class="product">Product 2</div> <div class="product special">Product 3</div> <div class="product special">

浏览 1提问于2014-03-29得票数 40

2回答

我怎么才能通过刮这个得到所有的产品名称呢？

、

import requests as r from bs4 import BeautifulSoup as bs url=r.get("https://www.consumerreports.org/cro/coffee-makers.htm") soup=bs(url.content) product=soup.find('div',class_="row product-type-container") pclass=product.find('div',class_="product-type-item col-xs

浏览 4提问于2022-05-07得票数 0

1回答

BeautifulSoup从段落中提取文本并通过<br/>分割文本

、、、

我对BeauitfulSoup非常陌生。如何从html源代码中提取段落中的文本，在有a时将文本拆分，并将其存储到数组中，以便数组中的每个元素都是段落文本中的一个块(由a拆分)？例如，对于以下段落： <p> <strong>Pancakes</strong> <br/> A <strong>delicious</strong> type of food <br/> </p> 我希望将其存储到以下数组中： ['Pancakes', 'A de

浏览 3提问于2020-06-26得票数 1

回答已采纳

2回答

Python多页Web只抓取文本

、、、

我对蟒蛇很陌生。我目前正在进行网络抓取。任务是刮掉戴尔社区Inspiron问题的前5页。我有运行并返回所需信息的代码。然而，我不能只得到文本。我的当前代码返回文本+ html。我尝试过在代码的各个点放置.text，但是只有当我这样做时才会出现错误。最常见的错误是："AttributeError: ResultSet对象没有属性'text‘。您可能将项目列表作为单个项来处理。当调用find_all()时是否调用了find_all()？“ 下面是我的代码： from urllib.request import urlopen from bs4 import BeautifulSo

浏览 5提问于2019-11-14得票数 2

回答已采纳

1回答

无法从网页提取文本使用漂亮的汤与python

、、、、

我是webscraping和HTML文本提取的新手。我想从这段HTML代码中提取文本 ? 我想提取 “我已经开户了……” 并将其放入代码的review变量中。 import requests from bs4 import BeautifulSoup import csv URL = "https://www.mouthshut.com/product-reviews/HDFC-Bank-reviews-925004501" r = requests.get(URL) soup = BeautifulSoup(r.content, 'html5lib&#

浏览 5提问于2020-06-19得票数 0

2回答

使用BeautifulSoup在Python中提取HTML段落中的文本

、、、

<p> <a name="533660373"></a> <strong>Title: Point of Sale Threats Proliferate</strong><br /> <strong>Severity: Normal Severity</strong><br /> <strong>Published: Thursday, December 04, 2014 20:27</strong><br

浏览 0提问于2014-12-24得票数 4

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用BeautifulSoup findall()拆分文本

相关·内容

使用BeautifulSoup从网页中刮取选定的标题和内部文本？

有没有办法从每个元素中获取所有特定的段落？

从BS4 ResultSet中删除元素，如果它们位于另一个BS4 ResultSet中

美丽的汤没有在网站上显示所有的元素

编辑--Python3美人汤从网站抓取元素

使用Python从div类中的网页中提取文本

从目标网站抓取产品和存储信息

如何才能让Beautifulsoup从嵌套在div中的段落中打印文本？

在用BeautifulSoup抓取图像时获取重复链接

标签之间没有空格的BeautifulSoup .children或.content

使用Python进行Web抓取-空白返回

在ul标签下的所有li标签中查找链接问题

使用BeautifulSoup从html中查找文本

使用Scraping获取产品名称

BeautifulSoup webscraping find_all( )：找到精确匹配

我怎么才能通过刮这个得到所有的产品名称呢？

BeautifulSoup从段落中提取文本并通过<br/>分割文本

Python多页Web只抓取文本

无法从网页提取文本使用漂亮的汤与python

使用BeautifulSoup在Python中提取HTML段落中的文本

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐