如何从Scrapy输出中删除\n \t但保留HTML标记

我是Scrapy和Python的新手。然而，我已经创建了一个蜘蛛，它可以为我提取所需的信息。唯一的问题是，我无法从输出中删除\n \t符号，同时在其位置保留html标记。例如：我当前的输出是： {'specification': ['<div class="col-lg-5 model__spec">\n\t

浏览 55提问于2021-07-20得票数 0

回答已采纳

2回答

从html标记中删除空格

、、

如何从html标记中删除空格？例如：=> "This is a Paragraph""<p>\r\n\t This is a paragraph\r\n</p>".strip => &q

浏览 4提问于2013-08-13得票数 1

回答已采纳

2回答

在Go on GAE中显示html/template生成的换行

、、、、

应用程序的一个页面从HTML文本区域接收用户数据，该文本区域作为字符串数据保存到Google数据存储。我试着使用<pre>标记来显示用户在文本字段中输入的保留的断行符，这样可以很好地工作。然而，我发现有一个双标签当使用<pre>标记时插入字符串的开头，我可以使用Javascript删除双重选项卡。我的想法是保留用户在文本字段中键入的中断行，使用javascript替换函数将所有的\r\n、\<em

浏览 14提问于2016-03-20得票数 2

回答已采纳

4回答

从文本中删除html，但保留Python中的<br>标记

、、

我正在使用python从网站获取数据，我需要删除所有的html和\n\t，但保留所有的文本和"br“标记输出 ['<div class="comment-text-inner">\n</em

浏览 2提问于2020-06-28得票数 1

2回答

仅剪贴式正文文本

、、、

我尝试使用python Scrapy从正文中抓取文本，但还没有成功。希望一些学者能够在这里帮助我从<body>标记中抓取所有的文本。

浏览 1提问于2011-03-22得票数 9

回答已采纳

3回答

URL上的抓取、散列标记

、、、

我正在使用Scrapy进行一个报废项目。[s] request <GET http://www.domain.com/b?rh=n%3A165796011%2Cn%3A%212334086011%2Cn%3A%212334148011%2Cn%3A3006339011%2Cp_8%3A2229010011&bbn=3006339011&a

浏览 1提问于2011-07-07得票数 5

回答已采纳

7回答

刮除列表输出中的html标记

、、

我正在尝试编写一个小脚本，它将提取蒸汽游戏标签并将它们存储在csv文件中。我目前面临的问题是，我不知道如何从输出中删除html标记。//a/text()').extract() item['gametitle'] = sel.xpath('//html/body/div[1]/div[7]/

浏览 0提问于2019-01-11得票数 10

回答已采纳

1回答

如何从输出中删除HTML标记和'\n‘

、、、、

我写了以下两行，从网站上提取标题和价格。但是，它提供带有html标记和'\n‘字符的输出。如何删除它们而只获得文本输出？product_name = response.css('#productTitle::text')[0].extract().strip('\n') product_price = response.css('#priceblock_ourprice&#x

浏览 0提问于2019-05-25得票数 0

1回答

刮擦注释在<br>之后跳过文本。

、

我能够在这是我正试图从以下网站上搜索到的评论：标记，我认为这意味着用户点击enter。是否有一种方法可以在import scrapy name = 'hamuso' start_urls = ['http://hamusoku.com/archives/9

浏览 3提问于2017-07-07得票数 3

回答已采纳

1回答

在Scrapy中使用XPath提取HTML结果失败，因为内容是动态加载的

、、、、

与我之前的一个问题有关，但与此不同的是，我遇到了一种情况，即Scrapy (用于Python)不会在h4标记中提取span标记。(部分代码被删除，因为它与问题无关)：import scrapy与

浏览 3提问于2017-07-01得票数 3

回答已采纳

1回答

Python中JSON to Dictionary无效

、

我正在使用scrapy从中删除数据。网站给了我JSON，还在JSON值中添加了HTML标签，这破坏了json。在python中，我使用这个函数json.loads(json)将json转换为dict。但这给我的错误是无效的json。我看了一下JSON，它是无效的，因为超文本标记语言的引用"标签。下面给出了示例。{"header":"<h2>Clothing</h2>\r\n\<e

浏览 2提问于2018-09-19得票数 0

1回答

返回更多元素的Scrapy* xpath*

、

我目前正在学习一本关于Scrapy的教程。例如，当使用xpath从html文件中筛选出某些标记元素时，会遇到以下问题。>['<title>Title of the page</title>\n </head>\<e

浏览 2提问于2022-03-10得票数 0

2回答

抓取0页(以0页/分钟计算)

、

蜘蛛文件夹中的init.py文件：sys.path.append("../../craigslist_sample/") # define the fields for your item here like: link= scrapy.Field()2015-06-20 22:34:59 [sc

浏览 2提问于2015-06-20得票数 6

回答已采纳

1回答

美丽汤解析错误

、

我正在尝试使用漂亮汤首先删除html字符串中的<a>标记，但保留它的内容。在那之后，我想删除所有的标签，并用新的行替换它们。text = "<p>This is a <a>test</a></p>"plain_text = soup.get_text(&

浏览 0提问于2016-07-09得票数 0

2回答

如何从python中的scrapy输出中删除'\n‘

、、、

我试图输出到CSV，但我意识到，当我刮tripadvisor时，我得到了许多回车，因此数组超过30，而只有10个评论，所以我丢失了许多字段。有没有办法移除回车。from scrapy.selector import Selectorimport csvimport unicodeda

浏览 0提问于2015-07-22得票数 3

回答已采纳

2回答

在Ruby的'String#scan‘中使用正则表达式删除尾随的换行符

、

我有一个字符串，它包含一堆用@name标记的超文本标记语言文档我希望获得一个由两个元素组成

浏览 48提问于2017-08-06得票数 1

1回答

body标记的一部分仍保留在file_get_contents输出中，如何删除它

我正在使用file_get_contents获取网页的内容，而body标记的一部分仍保留在输出中。我还使用strip_tags()删除了其他html标记，但保留了部分body标记。怎样才能删除它？我得到的输出是body>，然后是content。

浏览 2提问于2013-04-03得票数 0

回答已采纳

2回答

移除Python中的前导/结尾和内部多个空格，但不移除制表符、换行符或返回字符

、、

中问题的答案显示了分别从Python中的字符串中移除前导/结束、重复和所有空格的方法。但是头带()移除制表符和换行符，而leading ()只影响前导空格。使用.join(sentence.split())的解决方案似乎还删除了Unicode空白字符。假设我有一个字符串，在本例中是从使用Scrapy的网站上刮来的，如下所示： ['\n \n

浏览 4提问于2017-06-28得票数 1

回答已采纳

2回答

python输出在从php调用时没有正确显示

、

;")[0]print(table1)现在我从php调用这个脚本。下面是php代码。这就是我得到的输出。所有格式都丢失了。你能让我知道我该怎么做才能使这件事变得恰当吗？我对php非常陌生，但熟悉python。

浏览 4提问于2016-04-08得票数 1

回答已采纳

1回答

管道中的刮落物品字段？

、、

因此，我有一个item['html']字段，这是MyExamplePipeline所需要的，但是在处理之后，不需要将它存储到带有MongoDBPipeline的数据库中。有没有一种简单的方法来删除字段html并保留该项目的其余部分？需要将页面html从爬行器传递到管道中，这是项目的一部分，但是我想不出如何删除它。我查看了，所以在文章中提到了使用或，但问题是我不想使用项目导出器，我

浏览 0提问于2018-06-26得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从html标记中删除空格

在Go on GAE中显示html/template生成的换行

从文本中删除html，但保留Python中的<br>标记

仅剪贴式正文文本

URL上的抓取、散列标记

刮除列表输出中的html标记

如何从输出中删除HTML标记和'\n‘

刮擦注释在<br>之后跳过文本。

在Scrapy中使用XPath提取HTML结果失败，因为内容是动态加载的

Python中JSON to Dictionary无效

返回更多元素的Scrapy* xpath*

抓取0页(以0页/分钟计算)

美丽汤解析错误

如何从python中的scrapy输出中删除'\n‘

在Ruby的'String#scan‘中使用正则表达式删除尾随的换行符

body标记的一部分仍保留在file_get_contents输出中，如何删除它

移除Python中的前导/结尾和内部多个空格，但不移除制表符、换行符或返回字符

python输出在从php调用时没有正确显示

管道中的刮落物品字段？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐