对于我的项目,我需要谷歌搜索结果。我使用的是python请求和BeautifulSoup。我得到了结果,但它们与我在浏览器上看到的结果不同。我需要显示在我的浏览器上的确切内容。我也尝试过urllib。但它也不同于web结果。有人能帮我解决这个问题吗?
import requests
import bs4
link = 'https://www.google.com/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en-US,en;q=0.5',
'Accept-Encoding': 'gzip, deflate',
'DNT': '1',
'Connection': 'keep-alive',
'Upgrade-Insecure-Requests': '1'
}
response = requests.get(link, headers = headers)
soup = bs4.BeautifulSoup(response.text, 'lxml')
发布于 2019-06-02 23:19:56
大多数网站都运行javascript来更新网站。他们中的一些人还试图检测爬虫。
请改用headless browser进行爬网。
正如评论中提到的,一些网站也使用cookie。例如,谷歌搜索结果如此之好,主要是因为它们是为用户定制的。
https://stackoverflow.com/questions/56416313
复制相似问题