可以通过正则表达式或者BeautifulSoup库来实现。
import re
def get_first_link(code):
pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
match = re.search(pattern, code)
if match:
return match.group()
else:
return None
# 示例代码
code = '''
<html>
<body>
<a href="https://www.example.com">Example</a>
<a href="https://www.google.com">Google</a>
</body>
</html>
'''
first_link = get_first_link(code)
print(first_link)
输出结果:
https://www.example.com
from bs4 import BeautifulSoup
def get_first_link(code):
soup = BeautifulSoup(code, 'html.parser')
link = soup.find('a')['href']
return link
# 示例代码
code = '''
<html>
<body>
<a href="https://www.example.com">Example</a>
<a href="https://www.google.com">Google</a>
</body>
</html>
'''
first_link = get_first_link(code)
print(first_link)
输出结果:
https://www.example.com
以上两种方法都可以用来抓取代码中的第一个链接。根据具体需求和代码结构,选择适合的方法即可。
参考链接:
领取专属 10元无门槛券
手把手带您无忧上云