如何在Python中从bs4.element.Tag中获取每个文本和href？_如何在Python中通过文本获取href链接_如何在python中从xml文件中获取文本？ - 腾讯云开发者社区

python、html、beautifulsoup

我能够从bs4.element.Tag中提取文本和href。但是，输出是串联的。print first element in this tag:>>><div class="media-object app-link-block" href4f6f6db47610/64x64"/></div><div class="medi

浏览 438提问于2021-11-22得票数 0

回答已采纳

3回答

BeautifulSoup标记的类型为bs4.element.NavigableString和bs4.element.Tag

python、web-scraping、beautifulsoup

我在维基百科的一篇文章中尝试抓取一个表，每个表元素的类型似乎都是<class 'bs4.element.Tag'>和<class 'bs4.element.NavigableString'>。mw-content-text')('table')[1] print type(muni)生成以下输出： <cla

浏览 0提问于2016-11-30得票数 7

2回答

如何获得“href--2 2RDqa”中的所有标记元素？

python、beautifulsoup

我正在尝试获取href-2RDqa中的所有标记元素。 (keh)pronoun# Part of Speech print(spanishdict_soup.find("a", {"class": "href

浏览 3提问于2020-01-08得票数 0

回答已采纳

7回答

Python/BeautifulSoup -如何从元素中删除所有标签？

python、beautifulsoup

如何才能简单地从BeautifulSoup中找到的元素中剥离所有标记？

浏览 1提问于2013-04-25得票数 88

2回答

在python中匹配和清除引号的Regex

python、regex、python-3.x、web-scraping

我在bs4.element.ResultSet中存储了一堆从Goodread中刮来的引号，每个元素的类型都是bs4.element.Tag。我试图在python 3.6.3中使用regex和re模块来清除引号并只获取文本。当我使用[print(q.text) for q in quotes]迭代和打印一些引号时，如下所示， 每个</

浏览 1提问于2018-06-04得票数 1

回答已采纳

3回答

jquery、数组以及动态添加和删除文本输入

jquery、arrays

在这里，我需要能够动态地添加、删除和重置乘客姓名列表，最多有10名乘客。" maxlengt=\"100\" style=\"width:300px;\" name=\"pax_name[]\"><br></div>"; };我有一个想法，每次用户删除基于复选框的列表时，所有现有的乘客姓名都将添加

浏览 0提问于2010-09-10得票数 0

回答已采纳

1回答

如何在使用优美汤时获得文本标记

python、python-2.7、web-scraping、beautifulsoup

我是一个从事文本挖掘和玩具项目的纽比人，负责从网站上抓取文本，并将其分割成令牌。import operatorfrom bs4 import BeautifulSoup url= 'http://python.orgentire string removing all the html noiseprin

浏览 2提问于2017-09-05得票数 0

回答已采纳

2回答

如何使用Python3和Beautiful Soup解析两个注释之间的html

python、python-3.x、web-scraping、beautifulsoup

-- Comment 1 --><a href="http://www.something.htm"><h4>Link</h4></a> School Name 1<br /> School Name 3<br /

浏览 0提问于2018-02-15得票数 0

2回答

使用python解析href

python、web-scraping、html-parsing

我使用python进行web抓取，从站点获取以下代码：我想解析href的特定值，如PhysicianID的值，即"document.frmMain.PhysicianID.value“中的1234567。目前，我得到了整个h

浏览 3提问于2018-06-04得票数 0

回答已采纳

3回答

我是Python的新用户，我尝试导入genbank和fasta格式的文件。在他们的文档中，他们提供了一个示例，说明如何将数据集导入到Python中。具体地说，他们在Biopython教程和Cookbook的第16页中提供了以下示例： for seq_record in SeqIO.parse然而，python如何通过Bio import SeqIO知道文件的确切位置呢？注意，我在安装biopython和它的组件后

浏览 0提问于2012-02-13得票数 1

1回答

如何使用Jsoup针对特定url后面的特定文本字段？

java、html、css、jsoup

目前，我正试图使用Java中的Jsoup库来抓取一个静态的html页面。我找到了一种能得到我想要的东西的方法，但我不知道该为我的选择选择什么。以前，我使用CSS，但是我想要的文本的位置并不是每个html页面相同。因此，我考虑使用这个逻辑，在特定URL之后出现的文本，因为页面的布局方式是：<A NAME="Topic"></A&

浏览 1提问于2016-08-12得票数 1

回答已采纳

1回答

是否有从HTML树中仅检索所需信息的特定方法？包含的示例

python、web-scraping、beautifulsoup

我正在使用python3.8和BeautfiulSoup 4解析一个网站。我想要阅读的部分在这里： <h1 class="pr-new-br"> <span> 0.7 ImzaUçlu Kurşun Versatil Kalem 37.28.221.368 </span> </h1> 我使用

浏览 16提问于2021-10-31得票数 0

回答已采纳

2回答

无法让我的脚本只从顽固的网站获取下一页的链接

python、python-3.x、web-scraping

我在python中创建了一个脚本，只从一个浏览多个页面的网站中获取指向不同餐馆的链接。通过查看位于右上角的特定文本，我可以看到有多少链接，如：但是我不能手动地或使用脚本通过。该站点在每个分页中将其内容增加30。^='/biz/']"):continue lead_link = items.select_one("h3 > a[href

浏览 0提问于2019-07-10得票数 6

1回答

如何在Python中通过文本获取href链接

python

这是web html内容的一部分： <a href="https://www.cnbeta.com/articles/science/1062069.htm"><strong>阅读全文</strong></a> 如何使用阅读全文内容获取a的href？我只想从整个网页中获得这个href，并排除其他href。现在，我使用bs4进行解析，并插入get <em

浏览 21提问于2020-12-06得票数 0

回答已采纳

2回答

可能更改Python关键字文档和参考资料

python、keyword

如何获取关键字列表是几年前被问到和回答的，但这与如何在Python中记录和更新关键字有关。在许多语言中，有一个包含每个关键字的帮助页面，其中包含一个超链接，用于该关键字的帮助。我可以发誓Python也有这个，但现在我找不到了。它存在吗？如果是的话，有人能提供超链接吗？但是，您仍然需要逐个查找每个关键字，以找到帮助文档。在iPython和其他Python

浏览 4提问于2017-05-20得票数 1

回答已采纳

1回答

网页搜索器为某些文章返回NoneType对象

python、beautifulsoup

抓取器的逻辑流程:从XML提要中提取的文章链接被放入一个名为self.raw_html的列表中。然后调用以下简化的方法来过滤掉文章所在的容器，并从给定的文章中删除文本： for article in self.raw_htmlsoup.get_text() return self.article_html 这在大多数提要上都工作得很好，但有两个明显的例外(福布斯<

浏览 1提问于2012-06-29得票数 0

回答已采纳

2回答

BeautifulSoup可以访问字符串索引，但我的程序不能

python、python-2.7、beautifulsoup

当我在循环中运行这个BeautifulSoup函数来查找标记标题时，我可以打印它返回的列表中的索引。当我看到这一点时，我很困惑，因为我以为你不能把字符串放入任何类型的索引中。

浏览 2提问于2018-05-24得票数 0

1回答

在python中获取多个名称与selenium同名的类的所有文本数据

python、selenium、web-scraping

我正在尝试使用selenium在python中制作一个web刮板，并希望从嵌入式h3标记中获取文本，以及一个"a“标记中的文本。该网站的基本结构如下。<div class="class_name"> <a href="link that I do NOT want">Text That I want

浏览 4提问于2022-09-27得票数 0

回答已采纳

1回答

美汤:无法返回'p‘类

python、python-3.x、beautifulsoup

我对Python非常陌生。我写了一段从网站下载信件的代码。我想遍历EachLetter中的每个URL，并且只返回p中class为LETTER selectionShareable的文本。我希望能够打印出从EachLetter返回的带有正确标题的信件，我想我可以使用zip来实现这一点。感谢您的帮助。= {}for div in divs: if t

浏览 2提问于2018-03-10得票数 0

1回答

TypeError:无法将“字节”对象转换为str隐式- Python

python

我试图为在Python中使用的API创建一个身份验证签名，我想要的是，private_key = bytes("auth", encoding='utf-8'); public_key = bytes("200000", encoding

浏览 2提问于2017-01-11得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云