将python中的href列入黑名单以删除垃圾网站

在Python中，如果你想要将某些href链接列入黑名单以删除垃圾网站，你可以使用正则表达式或者特定的库来过滤这些链接。以下是一个简单的例子，展示了如何使用正则表达式来过滤掉包含在黑名单中的URL。

首先，定义一个黑名单列表，其中包含你想要屏蔽的网站的域名：

blacklist = ['spamwebsite.com', 'junkmail.org', 'fakeinfo.net']

然后，你可以编写一个函数来检查URL是否应该被屏蔽：

import re

def is_blacklisted(url):
    for domain in blacklist:
        if domain in url:
            return True
    return False

def filter_urls(urls):
    filtered_urls = []
    for url in urls:
        if not is_blacklisted(url):
            filtered_urls.append(url)
    return filtered_urls

假设你有一组HTML链接，你可以使用BeautifulSoup库来提取这些链接，并过滤掉黑名单中的URL：

from bs4 import BeautifulSoup

html_content = """
<html>
<body>
<a href="http://example.com">Example</a>
<a href="http://spamwebsite.com">Spam</a>
<a href="http://another-example.com">Another Example</a>
</body>
</html>
"""

soup = BeautifulSoup(html_content, 'html.parser')
urls = [a['href'] for a in soup.find_all('a', href=True)]

filtered_urls = filter_urls(urls)
print(filtered_urls)

在这个例子中，http://spamwebsite.com将会被过滤掉，因为它在黑名单中。