我正在尝试从一个长文件中剥离urls。我的代码工作得很好,除了下面这一个实例。我认为问题在于url字符串中有一个?如何在我的循环体中处理这种情况?如何强制re.sub()忽略?在url变量中?
blah = 'City of San Jose. Playa to Paseo, http://www.sanjoseca.gov/index.aspx?nid=5876'
url='http://www.sanjoseca.gov/index.aspx?nid=5876'
re.sub(url,'',blah)
OUT>>'City of San Jose. Playa to Paseo, http://www.sanjoseca.gov/index.aspx?nid=5876'
Desired OUT>>> 'City of San Jose. Playa to Paseo, '编辑:用奇怪的字符手动修复整个文件中的每个url不是我想要做的。我在这里循环了1000行的urls。
发布于 2018-09-14 08:03:56
您需要正确转义正则表达式中的所有特殊字符才能匹配原义字符。这也包括句点:
blah = 'City of San Jose. Playa to Paseo, http://www.sanjoseca.gov/index.aspx?nid=5876'
url='http://www\.sanjoseca\.gov/index\.aspx\?nid=5876'
print(re.sub(url,'',blah))或者,您可以使用re.escape为您完成此操作:
blah = 'City of San Jose. Playa to Paseo, http://www.sanjoseca.gov/index.aspx?nid=5876'
url = re.escape('http://www.sanjoseca.gov/index.aspx?nid=5876')
print(re.sub(url,'',blah))https://stackoverflow.com/questions/52323258
复制相似问题