首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Web抓取HTML与浏览器结果不同

Web抓取HTML与浏览器结果不同
EN

Stack Overflow用户
提问于 2019-06-02 23:15:11
回答 1查看 107关注 0票数 0

对于我的项目,我需要谷歌搜索结果。我使用的是python请求和BeautifulSoup。我得到了结果,但它们与我在浏览器上看到的结果不同。我需要显示在我的浏览器上的确切内容。我也尝试过urllib。但它也不同于web结果。有人能帮我解决这个问题吗?

import requests
import bs4

link = 'https://www.google.com/'
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'en-US,en;q=0.5',
        'Accept-Encoding': 'gzip, deflate',
        'DNT': '1',
        'Connection': 'keep-alive',
        'Upgrade-Insecure-Requests': '1'
    }
response = requests.get(link, headers = headers)
soup = bs4.BeautifulSoup(response.text, 'lxml')
EN

回答 1

Stack Overflow用户

发布于 2019-06-02 23:19:56

大多数网站都运行javascript来更新网站。他们中的一些人还试图检测爬虫。

请改用headless browser进行爬网。

正如评论中提到的,一些网站也使用cookie。例如,谷歌搜索结果如此之好,主要是因为它们是为用户定制的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56416313

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档