腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Python
BeautifulSoup
-
忽略
子
标记
和
ID
python
、
beautifulsoup
我想要找到所有的父标签,即所有只包含数字的
ID
,以及其中包含的文本。但是,现在我得到了所有a
标记
的扁平结构,包括父
标记
和
子
标记
。<A
ID
=101><a
id
=”A2”>Today is a very nice day.<a
id
=”A3”>Today is a very very nice day.
浏览 13
提问于2019-10-08
得票数 1
回答已采纳
1
回答
用
BeautifulSoup
删除xml解析中包含特定子
标记
的
标记
python
、
xml
、
beautifulsoup
我试图在
Python
中使用
BeautifulSoup
解析XML文件。XML文件如下所示:<b><c>abcd</c></x></x> <x
id
='567'><c>d
浏览 1
提问于2018-05-01
得票数 0
回答已采纳
1
回答
BeautifulSoup
导航
忽略
指定路径
python
、
beautifulsoup
看起来,我的
BeautifulSoup
解析器似乎
忽略
了我请求的元素的路径,并返回在路径中找到的第一个
标记
,该
标记
在路径中带有最后一个元素的名称,而不考虑到那个位置的路径。>
Python
代码: testXML = "<root><firstcategory><subcategory><
id
>123<
浏览 0
提问于2016-11-02
得票数 1
回答已采纳
1
回答
Python
`bs4.
BeautifulSoup
.get_text()` -仅从即时级别获取文本
python
、
beautifulsoup
假设我有一个超文本
标记
语言片段,并且我只想从直接级别执行get_text:s = "<div><p><strong>College Type:</strong> \r\nPrivate Un-aided\r\n</p></div>"print soup.find('
浏览 2
提问于2016-10-20
得票数 2
2
回答
如何在获得美丽汤元素的.string时
忽略
标记
?
python
、
dom
、
html-parsing
、
beautifulsoup
我正在处理具有
子
标记
的HTML元素,我希望“
忽略
”或删除这些
标记
,以便文本仍然存在。刚才,如果我尝试使用
标记
来.string任何元素,我所得到的就是None。import bs4 <div
id
="main"> </d
浏览 2
提问于2013-08-16
得票数 3
回答已采纳
3
回答
在HTML文件中查找所有*呈现的*图像
python
、
html
、
regex
、
parsing
我需要一种方法,在片段中只找到呈现的IMG
标记
。所以,我不能仅仅用HTML片段来查找所有的IMG
标记
,因为我还会得到在HTML中显示为文本的IMG
标记
(而不是呈现的)。我在AppEngine上使用
Python
。谢谢,伊凡
浏览 2
提问于2009-04-07
得票数 0
回答已采纳
1
回答
标签之间没有空格的
BeautifulSoup
.children或.content
python
、
beautifulsoup
我希望标签的所有
子
标记
之间没有空格。但是BeautifulSoups .contents
和
.children也返回
标记
之间的空格。from bs4 import
BeautifulSoup
<div
id
="list"> <a href="2.html">2</a><a hr
浏览 2
提问于2019-05-07
得票数 3
1
回答
抓取维基百科文章中的所有标题
和
纯文本
python
、
python-2.7
、
beautifulsoup
在
Python
中,我将如何获取维基百科文章中的所有标题和平面文本,比如:。(html, "html.parser") for elements获取<p>
标记
之间的所有内容。我的目标是抓取本文的所有标题
和
纯文本内容。我该怎么做呢?在上面发布的示例中,我想要的输出将包含: 此页
浏览 4
提问于2016-11-02
得票数 1
回答已采纳
1
回答
在
python
-markdown中禁用反引号内的html转义
python
、
markdown
我观察到,
python
-markdown总是在反引号内转义HTML实体,即使使用safe=False: In [2]: markdown.markdown
浏览 4
提问于2013-10-28
得票数 2
1
回答
如何根据<p> <div>或<br>
标记
的存在来拆分html页面
python
、
html-parsing
、
beautifulsoup
、
lxml
因此,第一个<p>
标记
将包含从<html>到相关<p>
标记
的所有数据/
标记
。我看过类似于lxml项目中的etree的东西,但它看起来并不重要。我已经想出了一种方法,我可以保存文件偏移量,然后继续剪切
和
切片输入文件,以实现我的目标,但它似乎充其量是黑客。谢谢。
浏览 1
提问于2013-07-30
得票数 1
1
回答
使用
BeautifulSoup
进行网络抓取返回NoneType
python
、
beautifulsoup
我试图用
BeautifulSoup
刮一个网站,并编写了以下代码:from bs4 import
BeautifulSoup
soup =
BeautifulSoup
(page.text, 'html.parser') try:content = soup.find('div'
浏览 1
提问于2019-01-18
得票数 3
回答已采纳
1
回答
用
BeautifulSoup
实现HTML页面中的
子
串计数
python
、
html
、
beautifulsoup
我需要找到并计算所有的"
python
“
和
"c++”字作为一个
子
字符串在
BeautifulSoup
模块的超文本
标记
语言代码。在维基百科中,这些词相应地出现了1到9次。为什么我的代码写0
和
0?from urllib.request import urlopen, urlretrieve resp = urlopen("https://stepik.org
浏览 18
提问于2020-07-15
得票数 0
回答已采纳
3
回答
使用
BeautifulSoup
4查找包含文本的所有终端节点。
python
、
python-3.x
、
beautifulsoup
我是
Python
和
BeautifulSoup
4的新手以下是我的尝试:
浏览 1
提问于2019-01-19
得票数 5
回答已采纳
1
回答
如何使用
python
HTMLParser从HTML页面中抓取特定值
python
、
html
我必须通过HTML层次结构找到值(在本例中是"dfgd454“):<
浏览 1
提问于2015-04-09
得票数 0
回答已采纳
2
回答
在
Python
文件夹中的所有HTML文件中插入HTML
标记
python
、
html
、
beautifulsoup
我对
python
很陌生,我尝试了一个程序来完成以下工作: 如果没有,那么添加< Google
标记
Manager我无法扫描每个文件夹中的所有
子
文件夹。如果< Google
标记
Manager>立即出现在body
浏览 4
提问于2016-09-11
得票数 1
1
回答
BeautifulSoup
子
标记
和
删除重复
标记
python
、
html
、
beautifulsoup
我试图通过使用
Python
2通过
BeautifulSoup
解析一些html。 for i in raw_html: soup =
BeautifulSoup
(i, 'htm
浏览 5
提问于2018-01-06
得票数 0
回答已采纳
1
回答
如何获得与浏览器视图匹配的带换行符的文本,而不是html源代码(使用
python
和
漂亮汤)
python
、
html
、
beautifulsoup
当我在
Python
语言中使用
BeautifulSoup
模块中的get_text()函数时,它返回的文本带有与HTML源代码匹配的换行符。但是,我希望换行符模仿您在浏览器中看到的效果(例如,
忽略
HTML源文件中的换行符,<br>
标记
使用一个换行符,<p>
标记
之间使用两个换行符)。from bs4 import
BeautifulSoup
sample html<br>
浏览 17
提问于2019-10-16
得票数 1
2
回答
在页面上发现所有“Php”的出现
忽略
case
BeautifulSoup
python
、
python-3.x
、
beautifulsoup
我希望在一个页面(
忽略
Php )上找到
BeautifulSoup
在
Python
3中发生的所有事件from
BeautifulSoup
import
BeautifulSoup
school_urls = ['somesite1.com','somesite2posting_keywords = ['PHP
浏览 4
提问于2017-01-25
得票数 0
2
回答
获取
标记
中的所有文本,除非它位于另一个
标记
中。
python
、
html
、
beautifulsoup
我试图用
BeautifulSoup
解析一些HTML,我想将所有的文本(递归地)都放在一个
标记
中,但是我想
忽略
small
标记
中出现的所有文本。在实际的HTML中,涉及到许多其他
标记
,因此应该排除small,而不是包含a。 标签的text属性与我想要的接近,但是它将包括Fun fact.,我可以连接除small
标记
之外的所有
子
标记
的文本,但这会
忽略
definition. --我找不到像get_text_until这样的方法( small<
浏览 4
提问于2016-11-06
得票数 0
回答已采纳
1
回答
使用
Python
模块
BeautifulSoup
刮取XML,需要树中的特定
标记
python
、
html
、
xml
、
beautifulsoup
、
lxml
因此,我已经在这个
python
脚本上工作了一段时间了,我正在尝试刮掉腿标签下的持续时间
和
距离
标记
。问题是,在步骤标签中,也有一个名为持续时间
和
距离的
子
标签,而步骤标签是腿标签的
子
标签。当我刮擦数据时,它也会返回那些距离
和
持续时间
标记
。mi</text> </leg> </route
浏览 3
提问于2014-03-09
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
总结 BeautifulSoup
Python爬虫库-Beautiful Soup的使用
Python爬虫库-BeautifulSoup的使用
干了这碗汤,你也可以愉快地爬虫了
Python 爬虫(五)
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券