python从不带html标签的文本文件中提取URL

Python从不带HTML标签的文本文件中提取URL的方法有多种，以下是其中一种常见的方法：

使用正则表达式提取URL：可以使用re模块中的正则表达式函数来匹配并提取URL。下面是一个示例代码：

import re

def extract_urls_from_text(text):
    pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
    urls = re.findall(pattern, text)
    return urls

# 示例用法
text = "这是一个文本文件，其中包含一些URL，比如https://www.example.com和http://www.example2.com"
urls = extract_urls_from_text(text)
print(urls)

该方法使用正则表达式模式匹配文本中的URL，并返回提取到的URL列表。

使用第三方库BeautifulSoup提取URL：如果文本文件中的URL是以HTML标签的形式存在，可以使用BeautifulSoup库来解析HTML并提取URL。下面是一个示例代码：

from bs4 import BeautifulSoup

def extract_urls_from_html(text):
    soup = BeautifulSoup(text, 'html.parser')
    urls = [a['href'] for a in soup.find_all('a', href=True)]
    return urls

# 示例用法
html = "<html><body><a href='https://www.example.com'>Example 1</a><a href='http://www.example2.com'>Example 2</a></body></html>"
urls = extract_urls_from_html(html)
print(urls)

该方法使用BeautifulSoup库解析HTML，并提取所有带有href属性的a标签的URL。

这些方法可以帮助你从不带HTML标签的文本文件中提取URL。对于更复杂的文本提取任务，可能需要根据具体情况进行适当的调整和处理。