以下是错误消息:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/python2.7/re.py", line 194, in compile
return _compile(pattern, flags)
File "/usr/lib/python2.7/re.py", line 251, in _compile
raise error, v # invalid expression
sre_constants.error: bad character range这是我的对象:
>>> re101121=re.compile("""(?i)激[ _]{0,}活[ _]{0,}邮[ _]{0,}箱|(click|clicking)[ _]{1,}[here ]{0,1}to[ _]{1,}verify|stop[ _]{1,}mail[ _]{1,}.{1,16}[ _]{1,}here|(click|clicking|view|update)([ _-]{1,}|\\xc2\\xa0)(on|here|Validate)[^a-z0-9]{1}|(點|点)[ _]{0,}(擊|击)[ _]{0,}(這|这|以)[ _]{0,}(裡|里|下)|DHL[ _]{1,}international|DHL[ _]{1,}Customer[ _]{1,}Service|Online[ _]{1,}Banking|更[ _]{0,}新[ _]{0,}您[ _]{0,}的[ _]{0,}(帐|账)[ _]{0,}户|CONFIRM[ _]{1,}ACCOUNT[ _]{1,}NOW|avoid[ _]{1,}Account[ _]{1,}malfunction|confirm[ _]{1,}this[ _]{1,}request|verify your account IP|Continue to Account security|继[\\s-_]*续[\\s-_]*使[\\s-_]*用|崩[\\s-_]*溃[\\s-_]*信[\\s-_]*息|shipment[\\s]+confirmation|will be shutdown in [0-9]{0,} (hours|days)|DHL Account|保[ ]{0,}留[ ]{0,}密[ ]{0,}码|(Password|password|PASSWORD).*(expired|expiring)|login.*email.*password.*confirm|[0-9]{0,} messages were quarantined|由于.*错误(的)?(送货)?信息|confirm.*(same)? password|keep.*account secure|settings below|loss.*(email|messages)|simply login|quick verification now""")发布于 2021-04-22 11:27:05
在最小化之后,您的错误归结为re.compile("""[\\s-_]""")。这确实是一个错误的字符范围;您可能希望破折号是文字re.compile(r"[\s\-_]") (对于正则表达式r"...",请始终使用原始字符串)。将破折号移动到括号组的末尾也可以:r"[\s_-]"。
将来,尝试使用binary search来找到最小的失败输入:删除正则表达式的右半部分。如果它仍然失败,那么问题一定出在左半部分。删除剩下的子字符串的右半部分,然后重复,直到最小的失败案例。当问题跨越两个部分时,这种技术并不总是有效的,但尝试一下并没有什么坏处。
正如评论中提到的,拥有如此庞大的正则表达式非常奇怪,但我假设您知道自己在做什么。
另外,在这个正则表达式中有一些反模式(请原谅双关语),比如可以简化为*的{0,}。
https://stackoverflow.com/questions/67206125
复制相似问题