我有以下正则表达式从某个网站提取歌曲名称:
<h2 class="chart-row__song">(.*?)</h2>
它显示了以下结果:
在下面的输出中,'
是一个撇号,该歌曲名是从网站上提取出来的。
如何更改正则表达式以删除这些字符?'
提亚
发布于 2016-05-21 13:21:01
正如注释中所述,不能仅使用regex来实现这一点。你需要在比赛中单独出现取消转义HTML实体。
import re
import html
regex = re.compile(r'<h2 class="chart-row__song">(.*?)</h2>')
result = [html.unescape(s) for s in regex.findall(mystring)]
https://stackoverflow.com/questions/37363293
复制相似问题