问Web抓取HTML与浏览器结果不同
EN

Stack Overflow用户

提问于 2019-06-02 23:15:11

回答 1查看 107关注 0票数 0

对于我的项目，我需要谷歌搜索结果。我使用的是python请求和BeautifulSoup。我得到了结果，但它们与我在浏览器上看到的结果不同。我需要显示在我的浏览器上的确切内容。我也尝试过urllib。但它也不同于web结果。有人能帮我解决这个问题吗？

import requests
import bs4

link = 'https://www.google.com/'
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'en-US,en;q=0.5',
        'Accept-Encoding': 'gzip, deflate',
        'DNT': '1',
        'Connection': 'keep-alive',
        'Upgrade-Insecure-Requests': '1'
    }
response = requests.get(link, headers = headers)
soup = bs4.BeautifulSoup(response.text, 'lxml')

python

python-3.x

beautifulsoup

python-requests

回答 1

Stack Overflow用户

发布于 2019-06-02 23:19:56

大多数网站都运行javascript来更新网站。他们中的一些人还试图检测爬虫。

请改用headless browser进行爬网。

正如评论中提到的，一些网站也使用cookie。例如，谷歌搜索结果如此之好，主要是因为它们是为用户定制的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56416313

复制

相似问题

问Web抓取HTML与浏览器结果不同
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web抓取HTML与浏览器结果不同EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web抓取HTML与浏览器结果不同
EN