我想删除字符串中的所有URL(用“”替换它们),我到处搜索,但没有真正找到我想要的。
示例:
text1
text2
http://url.com/bla1/blah1/
text3
text4
http://url.com/bla2/blah2/
text5
text6
http://url.com/bla3/blah3/
我希望结果是:
text1
text2
text3
text4
text5
text6
发布于 2016-11-27 05:01:05
最短的路
re.sub(r'http\S+', '', stringliteral)
发布于 2012-07-05 00:12:44
这对我很有效:
import re
thestring = "text1\ntext2\nhttp://url.com/bla1/blah1/\ntext3\ntext4\nhttp://url.com/bla2/blah2/\ntext5\ntext6"
URLless_string = re.sub(r'\w+:\/{2}[\d\w-]+(\.[\d\w-]+)*(?:(?:\/[^\s/]*))*', '', thestring)
print URLless_string
结果:
text1
text2
text3
text4
text5
text6
发布于 2018-04-26 14:48:18
删除混在任何文本中的HTTP链接/URL:
import re
re.sub(r'''(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))''', " ", text)
https://stackoverflow.com/questions/11331982
复制相似问题