如何使用BeautifulSoup剥离html，并像textContent一样保留换行符？

文章/答案/技术大牛

发布

1回答

python、beautifulsoup、newline、whitespace

这就是我得到的：>>> BeautifulSoup("<p>Hello</p>\n\n<p>World</p>").get_text()空格大部分被保留了下来，但是，就像上面的例子一样，换行符没有被保留。我想去掉没有任何空格规范化的超文本标记语

浏览 34提问于2016-08-22得票数 1

1回答

如何使用JavaScript从文本中删除HTML，但在每一行之间保留一个空格？

javascript、html

我正在使用从文本中剥离HTML。return doc.body.textContent || "";如果我有这样的HTML：This is the second line<br>它去掉断行，并创建如下文本： This is the first lineThis is the second lineThis is the third<em

浏览 3提问于2022-06-30得票数 0

回答已采纳

2回答

在TextContent中保留(或恢复)空格

c#、anglesharp

使用AngleSharp处理一些HTML并提取元素的文本内容以供以后挖掘，我遇到了AngleSharp剥离HTML标记的方法出现问题。例如，我有一个类似这样的HTML片段(减去换行符和选项卡)： blah, blah, blah, blah <ul>当然，我可以运行一个搜索并替换(可能是使用regex)，类似于(\S)\..

浏览 3提问于2015-12-29得票数 3

1回答

Python在lxml.html中保留cssselect和text_content()之后的新行

python、newline、html-parsing、lxml

在python中，如何在使用lxml.html时保留段落(即保留换行符)？例如，下面将剥离标记并加入这些行，这不是我想要的：content = body.text_content()lxml.html.clean.clean_html：不会保存newlines.

浏览 3提问于2010-11-22得票数 2

回答已采纳

2回答

在rails中去除不受欢迎的html的最好方法是什么？

ruby-on-rails、string-formatting

我正在做一个相当基本的rails应用程序，我想知道从文本字段中剥离不需要的html的最好方法是什么(基本上，我希望保留的只是链接和不超过2个换行符)。目前，我正在剥离所有的html并使用simpleformat，因为它似乎比使用RDiscount和Markdown/Textile的开销要小，但这并不是一个理想的解决方案。

浏览 2提问于2009-07-01得票数 0

回答已采纳

3回答

我使用的是RichTextEditor，并允许用户重新调整它的大小。所有的控件都被剥离到一个主工具栏中，这样RichTextEditor看起来就像一个包含文本的框。我有一个问题，当我保存编辑器生成的htmltext并稍后重新呈现它时，它总是在文本的末尾添加一个额外的换行符。我发现这是由于段落标签的原因，因为我希望用户能够对齐文本，所以我必须保留它。有谁知道如何在不剥离所有格式的情况下剥离最后一个换行符？

浏览 0提问于2012-05-24得票数 1

回答已采纳

2回答

在Angular模板绑定中剥离html

html、angular、angular2-template

"> </li> <span> </span

浏览 0提问于2017-09-18得票数 9

回答已采纳

3回答

如何使用电子邮件模板txt文件并保留格式？

email、asp-classic、formatting

我使用预格式化的文本文件作为电子邮件的模板。文件在我想要的地方有换行符。我想使用此模板发送纯文本电子邮件，但当我这样做时，我将丢失所有格式。换行符被剥离。 Dim TextStream Set Text

浏览 9提问于2008-11-26得票数 0

回答已采纳

3回答

如何在使用.text() - Jquery时保留内容可编辑div中的换行符

jquery、newline

当我使用submit按钮时，我使用.text()来获取div的内容。这将剥离div中的所有html标记，从而删除所有的<br>标记。所以没有换行。我想知道，在提交表单时如何保留换行符。

浏览 1提问于2013-04-13得票数 10

3回答

mySQL、换行符和文本格式

php、mysql、textarea、newline

用户将文本输入到文本区，该文本区可以包含换行符以进行格式化。我将此文本按原样保存到mySQL数据库中，而不添加HTML分隔符。这看起来像“文本废话。\n\n文本2废话。”在数据库记录中。我使用echo nl2br($text);在常规的超文本标记语言页面上显示文本，文本的格式很好，两个换行符显示为两个句子，中间有一个空行。在本例中，我没有使用nl2br，因为这样做只会从字面上显示HTML字符(而不是实际创建换行符--换句话说，向用户显示br的6个字符)

浏览 2提问于2012-07-15得票数 1

回答已采纳

4回答

在<td>标签中替换<p>、<div>标签吗？

c#、.net、html、regex、strip

我正在研究一个专门的HTML剥离器。当前的剥离器将标签替换为制表符，然后使用双回车符替换标签。编辑:我不喜欢使用一个库，因为让它签署并包含在项目中令人头疼(它本身就是一个要包含在另一个项目中的库)，更不用说法律问题了。但是，如果没有其他解决方案，我可能会使用HTML Agility Pack。大多数情况下，剥离器只是剥离它发现的任何看起来像标签的东西(在正则表达式Cookbook中使用</e

浏览 7提问于2009-07-23得票数 2

回答已采纳

4回答

JavaScript和HTML的抓取

javascript、python、parsing、web-scraping、web-crawler

我正在使用Python来完成这个任务。为此，我尝试过在HTML页面上使用BeautifulSoup，但在解析包含大量JavaScript的站点时，我遇到了困难，因为这些文件上的大部分信息都存储在<script>标记中。有什么办法吗？

浏览 8提问于2014-03-31得票数 5

回答已采纳

1回答

将富文本字符串转换为excel

excel、richtext

我们的所有数据都可以导出为HTML报告、PDF报告和Excel电子表格(报告)。允许使用富文本的字段在HTML和PDF报告中都显示为格式化的值，但在Excel中显示为字符串。我需要一种方法来使它在excel中显示为粗体/换行符，而不是仅仅显示该字符串，或者至少是一种从那里剥离HTML标记并只显示纯文本的方法(尽管我真的希望至少保留换行符)。

浏览 19提问于2011-03-15得票数 1

1回答

Highcharts:从TD中带有HTML标签的表格中生成图表

javascript、jquery、highcharts

我试图从一个表中生成一个图表，该表在TD中有各种HTML标签，链接等，我试图剥离HTML在图表中使用，但保留现有的表与链接等。这是我的代码： function stripHTML(html) var tmp = document.createElement("DIV"); return tmp.text

浏览 4提问于2017-03-25得票数 0

5回答

如何在CKEditor所见即所得编辑器中保留换行符

javascript、html、google-chrome、dom、ckeditor

我有一个HTML代码，代码如下 <div class="code"> <div class="code"> </div> HTML标记内的文本将变为一行长，开始和尾随空

浏览 2提问于2013-07-08得票数 8

2回答

如何将行return添加到json中？

json

如何在json获取的数据中插入换行符。此json是从远程firebase服务器传递的。更新:我正在使用ionic 5，并像这样打印json： {{sanitizeAndUnescapeHtmlsanitizeAndUnescapeHtml(body: string): string { const sanitized = this.domSanitzer

浏览 0提问于2021-05-07得票数 0

3回答

HTML5内容可编辑的div只接受明文

javascript、jquery、html

我正在尝试创建一个HTML5内容可编辑的div，它只接受纯文本。我在下面使用html和jQuery： jQuery $('[contenteditable]'是否有任何方法可以在筛选HTML标记后接受数据，以便任何人按类型、粘贴、删除或任何其他方式在可编辑的div中输入数据。它应该以文本的形式显示。

浏览 2提问于2014-06-25得票数 11

1回答

删除除换行符以外的HTML标记

android、html、regex、line-breaks

我正在从服务器接收具有HTML标签的字符串。我使用像string1.replaceAll("\\<.*?>","")这样的正则表达式删除了这些标记，但问题是它也删除了换行符和超链接。我想保留超链接和换行符，并删除其他所有内容。

浏览 1提问于2012-02-17得票数 0

回答已采纳

4回答

使用getContent{format:text}时，火狐浏览器中的换行符被剥离

tinymce

我试图在火狐中输入几行代码，并期望使用getContent{format: text}来仅获取内容。DOCTYPE html> <head> <body> </body> </html>

浏览 0提问于2014-05-07得票数 1

3回答

如何使用Mako模板去掉空格和换行符？我的12362行HTML文件正在扼杀IE

model-view-controller、templates、pylons、mako

我在我的Pylons网站上使用Mako模板系统，在剥离空格时遇到了一些问题。Mako文档说您可以使用trim标志，但这似乎不起作用。示例代码： ${next.body() |

浏览 4提问于2010-09-03得票数 4

点击加载更多