首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >python刮刀,响应[403]

python刮刀,响应[403]
EN

Stack Overflow用户
提问于 2021-06-07 20:37:11
回答 1查看 373关注 0票数 2

我正在尝试在上刮一个网站,但我得到了以下错误:

当我显示输出时,我得到如下信息:

代码语言:javascript
运行
复制
<body style="margin:0"><p id="cmsg">Please enable JS and disable any ad blocker</p><script>var dd={\'cid\':\'AHrlqAAAAAMAFuvaKabaZaMAVsjd8A==\',\'hsh\':\'05B30BD9055986BD2EE8F5A199D973\',\'t\':\'fe\',\'s\':2089,\'host\':\'geo.captcha-delivery.com\'}</script><script src="https://ct.captcha-delivery.com/c.js"></script>

在网上查看之后,我发现我们需要添加一个标题,否则websit就会知道这是一个机器人。我已经把它加进去了,但还是错误。

我使用的代码:

代码语言:javascript
运行
复制
from IPython.display import Image
import requests
from bs4 import BeautifulSoup
import requests_cache
import pandas as pd
requests_cache.install_cache("bases_scraping", expire_after=10e5)

url = "https://www.leboncoin.fr/recherche?category=55&text=electric%20bike&locations=r_12"

headers = {"user-agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:81.0) Gecko/20100101 Firefox/81.0"}

response = requests.get(url, headers=headers)
print(response)
print(response.content, "html.parser")

如果有人能帮我的话。

谢谢

EN

回答 1

Stack Overflow用户

发布于 2021-06-07 20:53:07

这似乎不是bot拦截器的问题,请确保您正在抓取的网站不使用javascript加载其内容,如果使用javascript加载其内容,则必须使用启用javascript的刮取库(例如selenium )让网站加载其内容,然后使用漂亮的汤来解析dom。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67878412

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档