腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Python
清理
HTML
内容
、
、
我正在
使用
一个外部API,它是从
HTML
电子邮件给我发送文本。文本不包含超文本标记语言结构(例如<
html
>、...、</
html
>等)。我需要
清理
这个文本并将其输出到Slack。我尝试过
使用
BeautifulSoup和Bleach,它们都不起作用,可能是由于输入中的超文本标记语言的部分性质所致。我
使用
了以下简单的Bleach例程: def textify(
html
): text = bleach.clean(<em
浏览 14
提问于2019-09-21
得票数 1
回答已采纳
3
回答
获取Google搜索结果和
清理
HTML
标签的建议
、
、
我正在从事一个项目,以获得谷歌搜索网页,然后
清理
HTML
标签,以获得纯文本
内容
。非常感谢。
浏览 3
提问于2011-03-05
得票数 1
回答已采纳
3
回答
python
[lxml] -清除
html
标记
、
、
from lxml.
html
.clean import clean_
html
, Cleaner try:in clean_
html
' return text 我把上面的(丑陋的)代码组合在一起,作为我最初进军
python
我正在尝试
使用
lxml
清理
器
清理
几个
html
页面,所以最后我只留下了文本,没有
浏览 2
提问于2010-06-01
得票数 15
1
回答
Django:允许安全的
html
标签
、
、
、
我正在研究各种框架和
内容
管理系统的XSS,以及它们是否提供了防范它的方法(不仅仅是通过编程来避免这种情况)。我知道在Djangos模板语言中,你可以指定一个变量为|safe,我希望能够允许真正安全的
html
标签,这样用户就可以格式化文本(简单的东西,如etc),但剥离这些东西,onload属性等。我想知道Django是否推荐了一种方法来做到这一点,而不仅仅是
使用
Python
。我希望这是有意义的 杰森
浏览 0
提问于2011-05-12
得票数 1
回答已采纳
1
回答
使用
python
的
HTML
Tidy
、
、
我正在处理格式不好的
html
页面,因此需要做一些
清理
。的Tidy函数产生了我想要的确切的输出。但是,我想将
HTML
文件作为更大的
Python
脚本的一部分进行
清理
。我试过了:tidy, errors = tidy_document(
html
) 但是,尽管tidylib运行良好,但输出并不像在w3我也找到了,但我没有找到
清理
HTML
的方法。我的问题是:
使用
Pyt
浏览 0
提问于2012-07-09
得票数 2
回答已采纳
3
回答
如何
使用
regex删除某些
HTML
标记中的字符串,字符串必须包含空空间
、
我尝试用
python
中的正则表达式
清理
一些
HTML
数据。给定带有
HTML
标记的输入字符串,如果
内容
包含空格,我希望删除标记及其
内容
。
浏览 5
提问于2017-01-03
得票数 1
回答已采纳
5
回答
在
Python
中
清理
HTML
、
、
我正在聚合来自一些外部来源的
内容
,并且发现其中一些
内容
的
HTML
/DOM中包含错误。
HTML
缺少结束标记或格式错误的标记属性就是一个很好的例子。有没有办法在
Python
本机或我可以安装的任何第三方模块中清除错误?
浏览 4
提问于2010-06-19
得票数 16
回答已采纳
2
回答
Python
regex -
清理
markdown
html
、
、
我正在尝试找出一种好方法来
清理
/重新格式化以Markdown格式编写的用户生成的
内容
。我想“纠正”不恰当的
内容
(尽可能好)。错误(输入):<!-- two -->four five <!
浏览 0
提问于2013-06-15
得票数 0
回答已采纳
4
回答
在
Python
中将
html
实体转换为ascii
、
我需要
使用
Python
将任何
html
实体转换为其ASCII等效项。我的用例是,我正在
清理
一些用于构建电子邮件的
HTML
,以便从
HTML
创建纯文本电子邮件。现在,我只知道如何从这些实体创建unicode,当我需要ASCII时(我想),这样纯文本电子邮件才能正确读取重音字符之类的
内容
。我认为一个基本的例子是
html
实体"& a急性;“或a被编码成ASCII。 此外,我甚至不能100%确定ASCII是我需要的纯文本电子邮件。如你所见,我对编
浏览 0
提问于2009-07-29
得票数 4
回答已采纳
5
回答
Vim的有用
Python
命令列表?
、
、
、
前几天,我正在寻找一种在Vim中快速实现自动套用格式/漂亮打印JSON的方法,我在Stack Overflow上找到了这个很棒的小命令: 这促使我搜索了其他
Python
工具的列表,以漂亮地打印常见的web有没有一个很好的资源/
Python
工具列表,他们发现这些工具对
清理
Vim中格式不佳的web
内容
(例如
HTML
、XML、JavaScript等)特别有用?
浏览 6
提问于2011-08-11
得票数 20
回答已采纳
1
回答
如何在Windows上清除
python
print()输出中的管道?
、
、
我试图通过管道将
python
stdout输出与xargs连接到curl,但这项任务失败了。</BODY></
HTML
> 但是,当从
python
打印相同的
内容
时,xargs curl输入在Windows上变得无效(
使用
cmder)。这在WSL中工作得很好:
python
3 -c"print('https://google.com')" | xargs curl <
HTML
浏览 37
提问于2021-02-03
得票数 0
0
回答
为什么Anaconda3包的垃圾桶目录没有被'conda clean‘清空?
、
我在Linux和Windows系统上都
使用
过
python
,偶尔也会用'conda clean -all‘
清理
一些东西。为什么不用'conda clean -all‘
清理
掉呢? 删除此目录中的
内容
是可以的,还是会破坏某些
内容
?
浏览 6
提问于2017-12-12
得票数 5
回答已采纳
1
回答
如何以编程方式验证网页的标记?
、
、
、
我需要以编程的方式验证网页标记,我听说
使用
正则表达式是可能的。如果是这样的话,是怎么做的?还有别的办法吗?(不
使用
w3c服务)
浏览 1
提问于2012-02-21
得票数 1
回答已采纳
2
回答
是否有必要添加缺失的结束标记作为
清理
HTML
以防止XSS攻击的一部分?
、
、
、
我正在
使用
Sanitize gem来禁止可能用于XSS攻击的
HTML
代码。作为一个副作用,
HTML
也会被
清理
干净。缺少的结束标记将被添加。这通常很好,但在许多情况下,它会改变
内容
的格式。最后,我希望完全
清理
HTML
,但不希望将此作为保护站点免受XSS攻击的一部分。 那么,缺少结束标记(例如</font>)是不是潜在的XSS漏洞?如果不是,我如何阻止Sanitizer也试图
清理
HTML
?
浏览 3
提问于2011-08-16
得票数 3
回答已采纳
1
回答
清理
Python
中的
HTML
解析
、
、
、
、
下面的代码从( )中抓取tr中的td元素,对齐=‘中间’标记,用逗号分隔每个元素,并将结果写入文本文件:import requests soup.prettify() acct = open("/Users/it/Desktop/accountin
浏览 3
提问于2014-10-21
得票数 1
回答已采纳
3
回答
Javascript清除所有当前
内容
并在同一个窗口中加载新
内容
、
我对javascript和
html
很陌生。我想在页面上添加一个按钮。"A“按钮。当我单击A时,我希望
清理
页面并显示一些新的
内容
,如文本框或其他
内容
。 我在网上搜索过。我找到的方法(如document.body.innerHTML="" )将
使用
单击按钮后要显示的新元素
清理
整个页面,因为我已经加载了所有的
html
元素。它只会把它们全部
清理
干净。我还尝试
使用
一个单独的
html
文件,并将新<e
浏览 2
提问于2014-06-27
得票数 0
回答已采纳
2
回答
使用
JavaScript
清理
HTML
、
、
、
在我正在开发的一个应用程序中,用户在文本框中输入
HTML
,以编辑其页面上的元素。在这个阶段,用户可以添加任何类型的
内容
,甚至可以添加损坏的
HTML
和一些文本节点。/ loop over each node in s, and if text node is found, wrap in span.这段代码的问题是,
内容
是一个有没有在所有情况下都能获得有效
内容
的修复方法?
浏览 0
提问于2011-12-21
得票数 5
1
回答
如何用
python
删除漂亮汤输出中的所有对齐和缩进?
、
、
、
、
我试图从
HTML
url中获取许多不同的表中的信息,而不需要任何
HTML
缩进/选项卡格式。我
使用
get_text生成我想要的
内容
,但是它有大量的空白和制表符。下面是我
使用
的
python
脚本:url="http://www.thecomedystudio.com/schedule.
html
" response=urllib.urlopen(url)
浏览 2
提问于2015-02-27
得票数 2
回答已采纳
1
回答
DateField中无值的Django表单中的替代文本
、
有没有一种简单的方法可以
使用
DateField显示None的替代表单字段值 任何提示都是值得感谢的。
浏览 1
提问于2011-06-09
得票数 1
回答已采纳
1
回答
restructuredText、docstring和
python
交互外壳
、
、
、
我正在
使用
reStructuredText来记录我的代码,以便通过epydoc获得漂亮的离线
HTML
页面。有没有办法让help()对文档字符串进行一些最小限度的解析?我不希望渲染斜体字体或超链接,但至少需要一些最小的
清理
来提高可读性。
浏览 6
提问于2011-02-10
得票数 6
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券