尝试使用Python删除标记(BeautifulSoup)

文章/答案/技术大牛

发布

1回答

、

这是我的代码： from bs4 import BeautifulSoup result = requests.get(url)find_by_class = soup.find('div', attrs={"class":"class_name"}).find_al

浏览 12提问于2021-11-11得票数 1

回答已采纳

2回答

在输入字符串中只保留一组html标记的Python代码

、

我有这样的文本： <script></script> <p> Description </p></div>def strip_tags(text, a_list_of_tags_to_not_remove) 使用下面的Beaut

浏览 1提问于2018-10-16得票数 1

2回答

比BeautifulSoup更快/更少资源-从大文件中删除html的方法？或者，使用BeautifulSoup的更好方式？

、、、、

目前，我在输入这个方面有困难，因为根据top，我的处理器是100%，我的内存是85.7%，所有这些都被python占用了。''.join(Beautiful

浏览 7提问于2011-01-24得票数 5

2回答

我怎样才能从源码中卸载漂亮的汤？

、

我安装了extracting -3.2.0.tar.gz从其中卸载它的命令是什么？我注意到有一个特定于linux发行版的包可用，它的名字叫python-beautifulsoup。我想安装系统特定的漂亮汤。python setup.py uninstall

浏览 0提问于2012-01-30得票数 1

回答已采纳

1回答

用BeautifulSoup删除xml解析中包含特定子标记的标记

、、

我试图在Python中使用BeautifulSoup解析XML文件。x id = '123'></b><x id ='456'><z></z><x id ='567'><c>def</c> </x>

浏览 1提问于2018-05-01得票数 0

回答已采纳

3回答

ImportError:没有名为bs4的模块？

、

我尝试导入库：from bs4 import BeautifulSoup。ImportError: No module named bs4当我尝试安装时：我得到以下错误： Requirement already satisfied: beautifulsoup4 in /usr/lib/

浏览 0提问于2016-12-05得票数 2

回答已采纳

7回答

BeautifulSoup解析的问题

、

我正在尝试用BeautifulSoup解析一个html页面，但是看起来BeautifulSoup根本不喜欢这个html或者那个页面。import urllib2print Beauti

浏览 1提问于2009-03-02得票数 5

回答已采纳

3回答

从图像中展开"a“标记，而不丢失内容

、、

我想从所有找到的图像中删除'a‘标签(链接)。因此，为了性能起见，我列出了html中的所有图像，并查找包装标记，然后简单地删除链接。我使用的是BeautifulSoup，不确定我做错了什么，而不是删除a标记，而是删除内部内容。" /></a> <a href="http://somelink2"><img src="http:&

浏览 1提问于2013-08-10得票数 1

回答已采纳

2回答

当BeautifulSoup遇到未转义的括号时，它将无法解析

、、、

加载包含文字(未转义)电子邮件标记的页面时遇到问题，例如 <head> </head> </body>当它命中该块时，解析失败：文件消息行115，错误提升HTMLParseError( "/tools/oss/packages/x86_64-r

浏览 1提问于2012-07-12得票数 1

3回答

Python nltk.clean_html未实现

、

我一直在试着用myNews=nltk.clean_html(myNews)文件"/usr/local/lib/python2.7/dist-packages/nltk-3.0.0-py2.7.egg/nltk/util.py"，第346行，在clean_html raise NotImplementedError (“要删除HTMLmarkup，使用B

浏览 1提问于2014-09-24得票数 19

回答已采纳

1回答

Python web抓取<a>之间的访问值</a>

、

假设我有这样的html代码：<a aria-current="page" aria-label="Current page" href="https://name_webpage.com/">1</a> 如何使用python访问<a> </a>之间的值，即1？

浏览 2提问于2021-02-18得票数 0

2回答

使用BeautifulSoup从XML标记中的字符串中删除CRLF

、、

以下是我正在学习的使用Python和美观汤解析的XML文件的摘录。请注意，标记在实际XML文件中显示在多个级别上。我尝试了以下代码：soup = BeautifulSoup(open(opxmlFilename),'xml') tag.string = str(tag.text).replace(&q

浏览 5提问于2014-08-19得票数 0

回答已采纳

6回答

使用BeautifulSoup移除所有内联样式

、、、

我正在用BeautifulSoup做一些超文本标记语言清理。对Python和BeautifulSoup都是新手。根据我在Stackoverflow上找到的答案，我已经正确地删除了标签，如下所示：但是如何删除内联样式呢？Text</p> <img class="some_image" href="somewhere.com"&

浏览 0提问于2012-10-19得票数 15

回答已采纳

2回答

我无法使用美汤进行解析

、

><span>Very Good</span></span> </span> My Name is Alis I am a pythonclear: both;"> </div><br /></td>

浏览 0提问于2010-11-17得票数 0

2回答

BeautifulSoup findAll在选择类时返回空列表

、、、

findall()在指定class时返回空列表指定标记可以正常工作 import urllib2htmlpage = urllib2.urlopen(req).read() BeautifulSoupFormat = BeautifulSoup= BeautifulSoupFormat.findAll(&qu

浏览 3提问于2019-04-23得票数 1

1回答

BeautifulSoup能保存CDATA部分吗？

、、、、

我使用BeautifulSoup来读取、修改和写入一个XML文件。我很难让CDATA部分被删除。下面是一个简化的例子。<?xml version="1.0" ?,./;'[]\-=</foo><?xml version="1.0" encoding="utf-8&qu

浏览 1提问于2013-05-07得票数 4

1回答

python bs4分析器类中的错误？

、、

/usr/bin/env pythonimport resoup = BeautifulSoup(doc) for span in soup.find_all(&#

浏览 4提问于2014-01-08得票数 2

回答已采纳

3回答

如何使用BeautifulSoup删除嵌套标记中的内容？

、、、

如何使用BeautifulSoup删除嵌套标记中的内容？这些帖子显示了反向检索嵌套标记中的内容：和>>> from bs4 import BeautifulSoup as bs >>> html = "<foo>Something

浏览 0提问于2014-02-13得票数 3

回答已采纳

1回答

第三种列表元素是从BeautifulSoup中提取的标记。我想要做的是从中提取一些信息--标记，并将其附加到newList中，但是，考虑到我正在使用一个regex，标签中的信息正在阻碍我的工作。通常，我只需将代码更改为int(matches[2])和int(matches[3])；然而，这是不可靠的，因为我将在不同的列表上运行这段代码，标记本身中的匹配数也会发生变化。是否有方法在找到匹配之前从列表中删除标记？

浏览 3提问于2017-04-13得票数 1

回答已采纳

3回答

尝试使用python解析网站url时出错。如何调试？

/usr/bin/pythonimport urllibfrom BeautifulSoupimport BeautifulStoneSoup query = urllib.urlencodeprint ' ', h['url'

浏览 0提问于2010-12-21得票数 0

点击加载更多