问Python -从正则表达式中移除撇号
EN

Stack Overflow用户

提问于 2016-05-21 13:02:44

回答 1查看 289关注 0票数 0

我有以下正则表达式从某个网站提取歌曲名称：

<h2 class="chart-row__song">(.*?)</h2>

它显示了以下结果：

在下面的输出中，'是一个撇号，该歌曲名是从网站上提取出来的。

如何更改正则表达式以删除这些字符？'

提亚

发布于 2016-05-21 13:21:01

正如注释中所述，不能仅使用regex来实现这一点。你需要在比赛中单独出现取消转义HTML实体。

import re
import html
regex = re.compile(r'<h2 class="chart-row__song">(.*?)</h2>')
result = [html.unescape(s) for s in regex.findall(mystring)]

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37363293

复制

相似问题

问Python -从正则表达式中移除撇号EN