用urllib2而不是requests抓取谷歌学者

urllib2 是 Python 2 中用于处理 URL 的标准库，而 requests 是一个更现代、更人性化的第三方库，用于发送 HTTP 请求。在 Python 3 中，urllib2 被拆分并重命名为 urllib.request 和 urllib.error 等模块。以下是使用 urllib.request 抓取谷歌学者页面的基础概念、优势、类型、应用场景以及可能遇到的问题和解决方法。

基础概念

HTTP 请求：客户端向服务器发送请求，请求特定的资源。
URL：统一资源定位符，用于标识互联网上的资源。
urllib.request：Python 标准库中的模块，用于打开和读取 URL。

优势

标准库：无需额外安装，随 Python 一起提供。
灵活性：提供了底层的 HTTP 请求控制。

类型

GET 请求：获取资源。
POST 请求：提交数据到服务器。

应用场景

网页抓取：从网页中提取信息。
API 请求：与 RESTful API 进行交互。

示例代码

import urllib.request
from urllib.error import HTTPError, URLError

url = 'https://scholar.google.com/scholar?q=python'

try:
    response = urllib.request.urlopen(url)
    html = response.read()
    print(html)
except HTTPError as e:
    print(f'HTTP 错误: {e.code}')
except URLError as e:
    print(f'URL 错误: {e.reason}')

可能遇到的问题及解决方法

1. HTTP 错误

原因：服务器返回了非 200 的状态码。

解决方法：使用 try-except 捕获 HTTPError 并处理。

try:
    response = urllib.request.urlopen(url)
except HTTPError as e:
    print(f'HTTP 错误: {e.code}')

2. URL 错误

原因：URL 格式不正确或网络连接问题。

解决方法：使用 try-except 捕获 URLError 并处理。

try:
    response = urllib.request.urlopen(url)
except URLError as e:
    print(f'URL 错误: {e.reason}')

3. 反爬虫机制

原因：谷歌学者可能有反爬虫机制，阻止自动化工具访问。

解决方法：

设置 User-Agent：模拟浏览器行为。
使用代理：通过代理服务器访问。

import urllib.request

url = 'https://scholar.google.com/scholar?q=python'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

req = urllib.request.Request(url, headers=headers)
try:
    response = urllib.request.urlopen(req)
    html = response.read()
    print(html)
except HTTPError as e:
    print(f'HTTP 错误: {e.code}')
except URLError as e:
    print(f'URL 错误: {e.reason}')