我正在尝试从文章中提取站点名称,但有时句子末尾的域名会有不需要的点字符,例如“您可以在www.website.gov.us找到更多信息。去年我们有……”
我想要获取域名,并避免包含最后一个点字符。我目前在python中的regex是:
Regex = r'[www.\w\.]+'
发布于 2018-06-15 08:04:09
感谢大家的回答。这个正则表达式解决了我的问题:
Regex = r'https?://(?:ww\w\.)?([a-zA-Z\d-]+(?:\.[a-zA-Z\d-]+)+)'
发布于 2018-06-11 09:19:01
您可以使用以下正则表达式:(?:http://|www.)[^\' ]+
这将使用dot character
获取网站地址,然后使用rstrip('.')
将其删除。
"www.website.gov.us.".rstrip('.') => "www.website.gov.us"
发布于 2018-06-11 09:47:49
好消息:不需要在python中破解,你可以用正则表达式完成所有的工作!
r'www(\.[a-z]+)+'
首先,匹配“www”,然后查找后跟字母的点的重复模式。如果您的url中可能包含大写字母,请将“a-z”更改为“a-zA-Z”。
https://stackoverflow.com/questions/50789290
复制相似问题