捕获列表标记之间的文本并从BeautifulSoup抓取打印

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

3回答

、、

刚刚开始使用BeautifulSoup和Requests进行网页抓取。我正在尝试创建一个可以抓取有序列表here上的消息的脚本我遇到了如何打印there列出的消息的第2行的问题这就是我到目前为止拥有的脚本。ol') print(ol.prettify()) 该脚本仅打印出整个文本。如何打印文本2或文本3等等……

浏览 4提问于2019-09-23得票数 0

2回答

尝试从同一下拉菜单下载多个文件- Python Selenium Chromedriver

、、、

我在尝试使用Selenium Chromedriver从网站上的同一下拉菜单下载两个单独的文件时遇到了问题。我有代码来单击这两个链接，但它只确认第一个链接；第二个文件不会被下载。我尝试在电子表格和shapefile点击之间添加一个隐式等待，但最终导致代码只下载shapefile而不下载电子表格。这是我的代码。我需要这个代码来点击并从下拉菜单下载电子表格和shapefile。

浏览 25提问于2020-09-09得票数 1

回答已采纳

1回答

从html页面中获取文本，并使用漂亮汤和python

、、

我需要抓取嵌套在HTML页面中的这部分文本。我以前用过bs4，但我不知道如何提取这个特定的文本。

浏览 19提问于2018-08-05得票数 0

回答已采纳

1回答

使用python BeautifulSoup获取嵌套的Div标记中的文本

、

我试图抓取嵌套的div之间的文本，但无法获得文本(这里是文本)在嵌套的div中找到了.The文本。文本在这里。所以正如你在下面看到的，我想打印出在所有这些'div‘中找到的文本(这里是text )，因为文本不在'p’标记中，所以我无法打印文本。我使用<em

浏览 0提问于2020-03-14得票数 0

1回答

当我尝试使用BeautifulSoup进行网页抓取时，一些超文本标记语言数据丢失

、、、

这是我试图从这个网站抓取数据的代码 https://community.hackernoon.com/u/ import requestsc=r.content soup=Beaut

浏览 25提问于2020-07-31得票数 0

回答已采纳

1回答

使用BeautifulSoup抓取标记之间的文本

、

我正在尝试用漂亮的汤抓取.txt文件中每个标记(在我的列表中)之间的每一段单独的文本，并将它们存储到字典中。这段代码可以工作，但如果我运行大文件，速度会非常慢，所以有没有其他方法可以让这段代码更快？from bs4 import BeautifulSoup # these are all of the tags in the file I'm lookingenc

浏览 0提问于2017-05-21得票数 2

1回答

(Python、BeautifulSoup)创建或修改不带锚点标记的锚点文本列表

、、、、

我是Python的新手，我正在尝试构建一个从网站提取一些文本并将其粘贴到Google电子表格中的脚本。文本是用标签包装在网站上的标题。我使用BeautifulSoup (也导入了pygspread )来提取标题，如下所示： target_url = 'WEBSITE URL' print(title.text) 这将

浏览 16提问于2019-12-24得票数 0

回答已采纳

1回答

跳过URL抓取

、

我正在尝试做一些网页抓取，我写了一个简单的脚本，旨在打印所有的网址在网页上存在。我不知道为什么它传递了许多URL，并从中间打印一个列表，而不是从第一个URL打印。from urllib import requests

浏览 12提问于2019-09-06得票数 0

1回答

现在我想要这个div的内容，而不包括img标签的内容，有人能帮我吗？

、、、

<span>hi<img/></span></div> 我只想打印"Hello World It is good to see you."(不应该包括hi和img)，但是当我尝试像.text in BeautifulSoup这样的方法时，它也在从内部标记中抓取文本。有人能帮我吗？

浏览 2提问于2022-08-21得票数 0

回答已采纳

1回答

抓取维基百科文章中的所有标题和纯文本

、、

在Python中，我将如何获取维基百科文章中的所有标题和平面文本，比如：。我目前的代码是： #Amount of documents amount_of_documents文件，然后使用BeautifulSoup获取<p>标记之间的所有内容。我的目标是抓取本文的所有标

浏览 4提问于2016-11-02得票数 1

回答已采纳

3回答

使用BeautifulSoup从标题标签下提取数据？

、、、

在通过python中的BeautifulSoup库获取链接的HTML之后，我想提取链接的标题。(3)"</title>import urllib.request from bs4 import BeautifulS

浏览 1提问于2016-09-21得票数 2

回答已采纳

1回答

通过facebook营销api获取facebook的最新广告类型及其需求

、、、、

我一直在看上的facebook api文档，但还没有找到解决方案。我只是想得到facebook的最新广告类型的列表，这些类型列在这个页面上：以及每种广告的规格。是否可以通过API实现？我只是想澄清一下，我不想访问某个特定facebook账户的广告或活动。我只想通过API动态获取facebook的最新广告类型和每种广告类型的要求，而不必将这些信息存储在我的数据库中，以避免手动保持最新信息。我意识到这不是一个特定的编码问

浏览 25提问于2020-10-28得票数 2

1回答

使用BeautifulSoup查找具有相同CSS类的多个元素

、、

我尝试使用BeautifulSoup的find_all()来搜索具有标签"div“和类"wisbb_name”的元素。我要抓取的超文本标记语言来自。Fiers</div> 所有投手HTML代码都有相同的类，只是与之关联的文本不同。我已经使用下面这行代码从find_all()中获取所有结果，并获得与之相关的文本。根据Beautiful

浏览 19提问于2017-07-22得票数 1

回答已采纳

1回答

如何使用"find_previous_siblings“的BeatifulSoup找到<strong>标签？

、、

我试图在一个不使用太多h1、h2、h3结构等的页面上进行web抓取，它主要使用强标记。我想搜索一个特定的单词(在p标签中)，如果我找到它，也从上面的级别(用strong标记)的文本.我注意到使用命令i.find_previous_siblings ('strong')返回空白列表创建的列表。虽然如果我使用soup.body.findAll ('strong')，它可以工作，返回

浏览 1提问于2020-06-23得票数 0

回答已采纳

1回答

用bs4 (漂亮汤)python2.7发布抓取网站

、、

我试图完成的是一个简单的python web脚本，用于搜索google趋势，并在抓取类时遇到一个问题。from bs4 import BeautifulSoup print(keyword) 在打印标记时，我接收并空类，但是，当我打印</

浏览 4提问于2020-03-27得票数 2

回答已采纳

1回答

Python BeautifulSoup4只显示标签，不显示文本

、、

我正在练习网络抓取，使用BeautifulSoup4从网站抓取数据。然而，当我运行我的代码时，当我检查网站上的元素时，它只显示开始标记和结束标记，当它们之间有明显的文本时。我的代码： import requests url = 'https://emenscr.nesdc.go.

浏览 33提问于2021-07-28得票数 0

回答已采纳

1回答

使用find_all()[]进行调试

、、

我必须调试我没有写过的代码。我想我发现了这一行中的问题，但我不清楚它是做什么的。有人能给我解释一下吗？

浏览 7提问于2017-07-25得票数 0

回答已采纳

1回答

有没有办法从谷歌专利搜索中抓取所有专利的链接？

、、

我想使用BeautifulSoup从谷歌专利搜索中抓取专利链接，但我不确定谷歌是否将其html转换为无法通过BeautifulSoup解析的javascript，也不确定问题出在哪里。下面是一些简单的代码：for link in soup.find_all('a', href=True): print(li

浏览 5提问于2021-06-03得票数 1

1回答

无法按位置或属性匹配时，提取BeautifulSoup中的标签值

、

我正在使用BS来抓取网页，但我遇到了一个小问题。下面是页面中的一段HTML代码。<br>一旦我得到了汤，我如何找到这个标记并获得艺术家的名字，例如M.I.A.。我不能将标记与style属性匹配，因为它在页面中的十几个地方使用。我甚至不知道span标记的确切位置，因为它的位置会从一个页面改变到另一个页面。因此，我不能通过位置匹配。艺术家的名字会改变，但标题跨度结构总是相同的</

浏览 7提问于2010-08-06得票数 2

0回答

在Python语言中使用/ BeautifulSoup4抓取XML

、、、

我正在尝试抓取集列表的内容(例如，Phish setlist - )。但是，我在让BeautifulSoup从属性中提取歌曲标题时遇到了问题。<song name="Down With Disease> some other crap and tags in here </song> 而我想要提取所有的'name‘信息，而不是标签中的

浏览 1提问于2017-01-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云