Python WebScraping -我可以浏览网站，但请求返回'403‘

当使用Python进行Web Scraping时，遇到返回'403'错误通常意味着网站服务器已禁止对你的请求进行访问，可能是因为你的请求被识别为机器人或爬虫，或者是由于网站的安全限制策略所导致的。

为了解决这个问题，你可以采取以下几种方法：

模拟人类行为：模拟真实用户的浏览行为，包括发送请求的频率、头部信息、Cookies等。你可以使用Python的第三方库，如Requests、urllib等，来发送带有适当头部信息和Cookies的请求。
使用代理IP：使用代理服务器将你的请求发送到目标网站。代理服务器可以隐藏你的真实IP地址，使得目标网站无法追踪你的请求。有一些付费和免费的代理IP服务供你选择。
使用延时：适当地设置请求的时间间隔，避免过于频繁地发送请求，以免给网站服务器造成负载压力。你可以使用Python的time库来添加延时。
遵守robots.txt：尊重网站的robots.txt文件，该文件规定了哪些页面可以被爬取，哪些页面不允许被爬取。你可以通过访问网站的robots.txt文件来查看规定，并相应地调整你的爬取策略。
使用验证码识别：如果网站对于机器人或爬虫设置了验证码验证，你可以使用第三方的验证码识别服务或库来自动解决验证码，以继续爬取。
尝试更改User-Agent：有些网站会根据User-Agent头部信息来判断请求是否来自真实浏览器。你可以尝试更改User-Agent头部信息，使其看起来像是来自一个常见的浏览器。

在腾讯云的生态系统中，有一些与Web Scraping相关的产品和服务，包括：

腾讯云CDN：腾讯云内容分发网络（CDN）可以加速网站的访问速度，提供更快的响应时间和更稳定的用户体验。
腾讯云反爬虫服务：腾讯云反爬虫服务可以帮助你识别和阻止恶意爬虫，保护你的网站免受爬虫的侵扰。
腾讯云API网关：腾讯云API网关提供了全面的API管理能力，可以帮助你对API进行统一管理和监控，并提供身份验证、访问控制等功能，可以在一定程度上防止滥用和恶意爬取。

这些产品和服务可以在腾讯云的官方网站上找到更详细的介绍和相关文档。

使用python的Webscraping -使用交互式网站

、

有人能推荐一个python包从荷兰会议办公室网站中提取数据吗？该网站显示了温度、降雨量等预测的图表。您可以单击该图表并选择底层数据显示在表格中。我可以使用哪个python包到这个站点，在一个dataframe中提取不同预测的表数据。谢谢

浏览 14提问于2022-10-01得票数 0

1回答

使用请求模块的WebScraping抛出一个错误-403-禁止

、、

我试图使用python中的请求模块从获取数据不知怎么我得到了HTTP 403-禁止的。 header = { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "

浏览 2提问于2020-06-24得票数 0

2回答

python3 urllib.request的403禁止错误

、

我试图访问一个网站，看看是否可以使用urllib.import的urlopen模块读取它的内容，但后来我看到了403禁止的错误。但当我尝试通过web浏览器打开链接时，它就会打开。在我看来，这是网站的某种安全措施，可能是为了防止恶意攻击。我想知道有什么机制可以让我的内容通过web浏览器访问，但又不能通过我正在运行的脚本进行访问？ {code} >>> from urllib.request import urlopen >>> html= urlopen("http://www.english-for-students.com/A-Wise-C

浏览 0提问于2017-07-01得票数 0

2回答

Python原子钟网络抓取

我正在尝试简单地使用python从网站获取原子时间。我知道在python中有一些方法可以在不使用webscraping的情况下做到这一点，这只是为了练习一下webscraping。到目前为止，我已经想出了这个： import requests from bs4 import BeautifulSoup page = requests.get("https://www.nrc-cnrc.gc.ca/eng/services/time/web_clock.html") soup = BeautifulSoup(page.content,'html.parser')

浏览 25提问于2017-12-18得票数 0

1回答

Webscraping Zerohedge

、、

我正试着从下面的网站上网。我所需要的是标题内容，我认为我可以从DIV CLASS = " content“中抓取这些内容。代码返回空白，我有点困惑。我习惯于从表格中抓取细节，所以我可能遗漏了什么。 Sub SmartCentreREIT() Dim XMLPage As New MSXML2.XMLHTTP60 Dim HTMLDoc As New MSHTML.HTMLDocument Dim List As MSHTML.IHTMLElementCollection Dim Section As MSHTML.IHTMLElement Dim HTMLRow A

浏览 2提问于2021-04-07得票数 1

2回答

Web抓取访问被拒绝|限制访问的Cloudflare

、、

我正在尝试使用python脚本访问和获取来自www.cclonline.com网站的数据。这就是代码。 import requests from requests_html import HTML source = requests.get('https://www.cclonline.com/category/409/PC-Components/Graphics-Cards/') html = HTML(html=source.text) print(source.status_code) print(html.text) 这是我得到的错误， 403 Access den

浏览 137提问于2021-05-08得票数 0

回答已采纳

1回答

googlemaps api在python终端中工作，但在脚本中不起作用。

、、

我试图在python中编写一个简单的web刮刀，它使用googlemaps api查找本地加油站，但由于某些原因，我无法让它单独执行。当我跨出一步，或者使用python提示符时，代码可以工作，但是当我试图单独运行代码时，我会得到一个INVALID_REQUEST异常。这是我的密码：您需要一个api密钥来运行它，但是您可以在这里做一个:运行应用程序的要花钱，但是谷歌每月给你200美元的信用，所以你不需要担心成本。尽管如此，我不会把我的贴在这里让每个人都拿走。 import googlemaps from googlemaps import places import time gmaps

浏览 4提问于2020-01-01得票数 0

回答已采纳

2回答

如何使用Kotlin运行Python Webscraping代码

、、、

我正在开发一个从网站下载文件的工具。我为此编写了Python代码，现在如何使用Kotlin执行这段代码？有什么简单的方法吗？ (我必须用Kotlin来做，但我不知道如何从网站上下载东西，所以我使用python) 谢谢

浏览 12提问于2022-01-06得票数 1

1回答

Python抓取: 403和503个错误

、、

我正试图在一个网站上搜索一些公共信息(苹果应用程序的信息)。这个网站需要登录才能执行诸如“搜索应用程序/开发人员”之类的操作。虽然有许多网站提供类似的信息，但我认为这个特定的网站提供了每个应用程序最完整和详细的信息。作为一个有效的用户，我能够执行这个任务。但是，当我试图通过python代码访问信息时，在发送POST请求时遇到403个错误，发送Get请求时遇到504个错误。我试过用实userAgent报头假用户代理“包” FancyOpener/类似事物，显示为python3.4贬值 HttpAuthM./类似的东西，对于身份验证，仍然不起作用我想该网站是高

浏览 9提问于2016-08-26得票数 1

1回答

用Python从打开的Safari会话中提取cookie

、、、、

试着效仿这个例子：我试图从这个网站获得文件，这是一个冗长的过程，点击到每个文件。我可以很容易地使用urllib2进行网络抓取，但是，当然，您必须登录到这个网站才能获得数据。我尝试在Python中执行一种登录类型方法，但我无法让它工作。我的另一个选择是从Safari会话导出cookie，这样我就可以运行我的webscraping脚本来获取我需要的数据。有人知道如何将cookie从Safari会话导出到Python以访问网站数据吗？

浏览 0提问于2015-07-30得票数 1

回答已采纳

1回答

解析网站时出现HTTP错误: 403

、、、

所以我试着从这个网站解析。这个网站不允许网络抓取器，所以我得到了一个HTTP error: 403 forbidden. 我使用的是python，所以我尝试了机械化来填写表单(自动填写表单或单击按钮)，但再次遇到相同的错误。我甚至不能使用urllib2.urlopen()函数打开html页面，它给出了同样的错误。有人能帮我解决这个问题吗？

浏览 2提问于2012-07-28得票数 1

回答已采纳

4回答

从超文本标记语言运行NodeJS代码

、、、、

因此，我刚刚开始学习NodeJS，作为学习如何为我想做的项目构建how抓取工具的一部分。当我直接通过终端运行文件时，我从NodeJS文件中获得了所需的所有内容，但我想知道如何直接从我正在构建的网站运行代码，以显示我从webscraping获得的内容。任何和所有的帮助是感激的！(另外，我是stackoverflow的新手，所以如果您需要更多信息，我很乐意为您提供帮助！)

浏览 1提问于2017-01-25得票数 3

1回答

用Python抓取金属档案

、

我正在尝试从这个网站做一些基本的with操作：和Python：例如，我想执行一个搜索乐队杀手， requests.get('https://www.metal-archives.com/search/ajax-advanced/searching/bands/?exactBandMatch=1&bandName=Slayer') 结果在<Response [403]>，然而，这是在几天前的工作，所以我想知道发生了什么金属档案？

浏览 0提问于2018-10-23得票数 1

回答已采纳

1回答

ASP.NET windows身份验证+ ajax= 403错误状态码

、、、

我在我的网站中使用asp.net windows身份验证。通过认证后，网站运行正常(即使是ajax请求也得到了授权)。但经过一段时间后，当我对服务器进行ajax调用时，服务器返回403状态代码(未授权)。原因是什么?我如何修复它？下面是一个例子： 1-首先我使用LDAP凭据登录 ? 2-打开一个包含使用ajax获取数据的按钮的页面 ? 3-在没有向服务器发出任何请求的情况下，在网站处于空闲模式一段时间后，单击按钮data is fetched.BUT，AJAX调用返回403状态(禁止) ? 请注意，当我重定向到其他页面时，一切正常。我没有返回403状态码。下面

浏览 13提问于2019-01-07得票数 1

2回答

抓取网站页面数据时出现403错误

、、

我有一个价格比较网站，从各种网站刮价格。对于所有网站，代码运行正常，但其中一个返回403禁止错误。该网站采用Asp.net MVC3框架开发。以下是我的代码。 public static decimal? GetSpanFromWebSite(string url, string identification) { var baseUrl = new Uri(url); HtmlAgilityPack.HtmlDocument document = new HtmlDocument(); try {

浏览 0提问于2014-09-05得票数 1

1回答

如何从多个网页中提取内容？

、

我想从各种评论网站中提取某些内容(评论信息)。首先。我开始只用一个网页提取内容。我可以做到这一点，没有任何问题。我已经写了一段python代码来实现同样的功能。然而，我不确定如何使用相同的python模块从多个网站中提取。我最初使用下面的代码来提取网站的评论： from webscraping import download, xpath D = download.Download() # download and cache the Google Code webpage html = D.get('http://code.google.com/p/webscraping'

浏览 0提问于2017-04-25得票数 2

1回答

403使用邮递员和蟒蛇时禁止使用

、、、、

实际上，我正试图从API中收集一些股票数据。它在使用浏览器时返回200的成功响应。但是，一旦我尝试通过Postman或Python调用，它就会返回403禁用。根据我到目前为止的理解，这个API不需要令牌或授权，因为您可以直接从浏览器调用API。下面是API Url：以下是网站：我尝试过几种方法，但这并不能解决我的问题：我已经把用户代理和接受。放置授权，Put令牌没有帮助。 Curl这个API也没有多大帮助。邮递员卷曲 python import requests parameters = { "Length":

浏览 16提问于2022-07-18得票数 1

1回答

如何使用c#调用php？

、、

我试图通过API调用一个php网站，这给出了下面的Error 403。请检查下面的代码。如果有人有解决办法，请帮帮我。

浏览 4提问于2015-08-13得票数 1

回答已采纳

1回答

同时尝试刮两个页面时出错- Python，bs4

、、

我试图从一个(主要)网站的一些电影的链接，然后，从这些链接的内容刮刮。在下面的代码中，我尝试只使用一个链接来实现它，但最终，我将对所有这些链接使用一个循环。 from urllib.request import urlopen from bs4 import BeautifulSoup as soup import csv def make_soup(url): # opening up connection, grabbing the page source = urlopen(url).read() # opening up connection, grabb

浏览 1提问于2020-04-15得票数 0

4回答

配置IIS以返回404以进行目录浏览尝试

、

在IIS (6或7)中，当目录浏览被禁用时，IIS在检测到试图浏览目录时返回"403禁止“错误(例如"")。是否有任何方法将IIS配置为返回"404 -非找到“错误，而不是目录浏览尝试返回"403”？这是一个asp.net网站。我们网站的安全扫描指出，返回"403“可能会帮助恶意用户绘制我们的站点；以前没有想到这一点，但我不得不承认这是有意义的。

浏览 5提问于2013-09-16得票数 12

回答已采纳

1回答

响应头和浏览器cookie中csrf令牌的不同值。csrf核查在django 1.9中失败

、、

大多数这样的答案都要求清除cookies并确认中间件类。我已经试过了。 Python3.4 Django - 1.10 使用VirtualEnv。我在Django管理员登录屏幕上得到了Forbidden (403) CSRF verification failed. Request aborted.错误。我在pythonanywhere.com上托管了我的站点，使用django 版本1.9。我已经清除了浏览器cookie。他们所有人。我重新加载了登录屏幕。收到请求。在到目前为止为空的浏览器cookie中，为我的网站设置了一个值，其中csrf = XPp5hAhylAkt27

浏览 1提问于2017-01-22得票数 5

回答已采纳

2回答

服务器- Windows 2K8/IIS7 7/ColdFusion抛出间歇性403错误

、、

我们刚刚在hostgator上设置了一个新的专用服务器，运行Windows2008Server、IIS7和ColdFusion 8 ENT。在浏览主页时，有时网站工作，有时，部分网站运行，我可以看到一个403错误在Firebug。在其他时候，我只得到一个IIS错误页面，上面写着： "403 -禁止:访问被拒绝。您没有使用您提供的凭据查看此目录或页面的权限。“。这个网站是。它可能第一次运行，但如果您刷新它几次，您可能会遇到问题。这里有很多ajax和JSON内容，我想知道这是否与问题有关。会感谢任何曾经解决过类似问题的人的建议。

浏览 1提问于2011-04-15得票数 2

1回答

200确定与htaccess为404和403状态

、、、、

我正在尝试将HTTP STATUS of 404和403改为200 OK 使用PHP，它很容易做，但问题是我的网站是.html，我不能改变它为.php出于某种原因。代码(PHP)： header("Status: 200 OK"); 我想在.htaccess上也一样。因此，它将自动将404 & 403的HTTP代码更改为403。 Htaccess代码： RewriteEngine On #ErrorDocument ErrorDocument 403 /forbidden.html ErrorDocument 404 /notfound.html ErrorDocu

浏览 27提问于2022-01-08得票数 0

1回答

S3回退存储桶

我已经建立了一个系统，其中我有产品模板。品牌将覆盖模板以创建产品。您可以将图片上传到模板，并在产品上进行覆盖。产品图片被上传到对应品牌的S3存储桶中。但是在产品模板上，图片被上传到一个通用的S3存储桶。有没有办法让品牌的存储桶回退到通用存储桶，如果它接收到带有文件url的404或403。类似于托管网站重定向规则？这些只是带有图片的桶，所以它不会是一个托管的网站，我希望避免打开它。

浏览 3提问于2019-07-31得票数 0

1回答

在Python请求中生成Cookie

、、

我是Python的新手，所以请原谅我可能有的任何错误或误解。我做了一小时又一小时的研究，已经到了一个停止点。我正在使用Requests库从一个需要登录的网站中提取数据。我最初是通过session.post (有效负载)/session.get成功登录的。我得到了200个回复。当我试图查看登录之外的JSON数据时，我遇到了一个403响应。长话短说，我可以通过浏览器登录并检查web元素以查找当前会话cookie，然后在请求中定义标头以使用session.get传递该cookie，从而使其正常工作我的问题is...is是否有可能在登录后通过python设置/生成/查找此cookie？在登录和注销

浏览 4提问于2020-05-15得票数 0

1回答

相当于Python requests.post()的Jquery

、、、

所以我正在尝试使用HackerEarth Api，并希望在我的网站上加入编译/运行功能。根据可以在这里找到的文档- ，我知道使用下面的python脚本，我可以为我的代码获得json响应。 #! -*- coding: utf-8 -*- import requests # constants RUN_URL = u'https://api.hackerearth.com/v3/code/run/' CLIENT_SECRET = '5db3f1c12c59caa1002d1cb5757e72c96d969a1a' #not my own secret

浏览 1提问于2017-05-05得票数 0

1回答

mp4的网址给出错误，但mozila可以下载它。我怎么用python下载它呢？

、、

我正在尝试制作一个从网站下载视频的脚本。我看到了视频url，但当我试图打开它时，它给出了`403错误，请求无法得到满足。但在视频页面中，当我选择查看页面信息时，firefox可以成功下载视频。在介质选项卡的描述中，有一个我试图访问的链接位置，但给出了相同的错误。我试图用pathlib下载视频，但保存时出现了错误。我的问题是如何下载这个视频？

浏览 0提问于2020-01-05得票数 0

2回答

当我收到403错误时，如何使用postman下载web内容？

、

我正在尝试使用Postman从以下地址下载网页： https://cookidoo.co.uk/recipes/recipe/en-GB/r252593 但我从服务器得到了如下所示的响应，并引用了错误403： <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD> <META HTTP-EQUIV="Content-Type&

浏览 135提问于2020-10-26得票数 0

1回答

无法通过'403 -禁止‘Python Webscraping -尝试更改标头

我试图在网上搜索一个网站，尽管我可以使用Chrome访问我的电脑上的网站，不管我在python上尝试了什么，我还是会得到状态代码403 --这是被禁止的。我已经尝试过与用户代理混在一起，以及请求中各种网络头的组合。但我还是坚持要解决这个问题。 import requests headers={'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding': 'gzip, de

浏览 1提问于2020-10-20得票数 0

回答已采纳

1回答

在HTTPS代理中用403响应

、

我想用我的代理来阻止一些网站，用403来回应。我成功地在HTTP中以这种方式进行了响应，但是当我获得CONNECT方法时，我的响应是：HTTP/1.1 403 Forbidden Status: 403 Forbidden Proxy-agent: smth Connection: close，但用户仍然得到ERR_TUNNEL_CONNECTION_FAILED。我能做些什么来为用户提供一个好的403错误？

浏览 9提问于2020-02-10得票数 3

回答已采纳

1回答

绕过Cloudflare Scrapeshield

、、、

我正在做一个webscraping项目，我遇到了cloudflare scrapeshield的问题。有谁知道怎么绕过它吗？我使用selenium webdriver，它被scrapeshield重定向到一些光速页面。在firefox之上使用python构建。正常浏览不会导致它重定向。webdriver和普通浏览器有什么不同吗？

浏览 2提问于2014-01-05得票数 7

1回答

在/408.shtml站点上请求的不存在的/403.shtml和WordPress URL

、、、

在我的WordPress网站上，最常见的两个不存在的页面如下： /408.shtml (3500次) /403.shtml (470次) 我使用重定向插件跟踪404个请求，这些是最常见的请求，第二个最常见的请求仅被请求50次。为什么要请求这些页面？我推测这些是仅基于URL的HTTP错误代码，但我从未见过由我的网站返回的403或408 HTTP错误。如果这些HTTP错误被返回，这些页面会被请求，还是站点只返回一个空白页和错误代码？有趣的是，绝大多数/408.shtml请求来自同一个用户代理，"Mozilla/5.0 (WindowsNT6.1；WOW64；rv:40.0) Gecko

浏览 0提问于2019-04-02得票数 1

回答已采纳

1回答

从地理位置生成空列表的所有结果

、

下面是从指定的URL中获取所有城市的简单代码： import geograpy url = 'https://www.netmagicsolutions.com/cloud-infrastructure-services' places = geograpy.get_place_context(url=url) print places.cities 但这是一个空名单。尝试了很多解决方案，但都找不到合适的解决方案。有没有人对此有任何想法？，还是有任何python可以从'URL‘?中提取城市/国家？下面是终端快照： runfile('D:/KJ/Nagesh/D

浏览 0提问于2018-08-16得票数 1

1回答

为什么我和蟒蛇擦伤的时候被禁止了403？

、、、、

我正试着刮一个特定的网站，让我们称之为"。在过去的几个月里，我能够做到它没有问题，但几天前，我注意到刮刀不再工作，因为所有的请求返回403禁止地位。“ 在过去的3个月里，我使用了下面的代码来抓取数据。 import requests from fake_useragent import UserAgent res = requests.get(<url>, headers={'User-Agent': UserAgent().random}) 这总是返回一个不错的200确定与我需要的页面。直到几天前，我开始收到一个403禁止的错误。在返回文本的某个地方，我

浏览 11提问于2022-10-12得票数 2

1回答

如何使用python从网页中提取输入元素的值？

、

我正在做一个项目来提取下三个即将到来的公交车的e.t.a.。从公共汽车跟踪器迈阿密网站，但出于某种原因，他们显示这些时间使用了HTML中的空值的输入元素。我不是HTML方面的专家，所以我相信他们一定有他们的原因，可能是javascript中的某种异步脚本之类的。当我在这个网站上使用python进行get请求时，我可以看到输入域，但是在value旁边是空的，当我使用chrome检查它们时也是一样的。我只能在进入chrome inspect实用程序中的accessibility选项卡后才能看到它们的值。有没有办法用python查看这个值？该网站为"https://www.miamidad

浏览 12提问于2021-07-05得票数 0

回答已采纳

2回答

用TypeError中的Selenium将键发送到文本字段时使用

、、、

当我尝试用Python向文本字段发送文本时，我遇到了一个非常奇怪的问题。这是我的密码： keyword_text_field = driver.find_element_by_xpath('//*[@id="558450155"]') keyword_text_field.clear() keyword_text_field.send_keys('Ford') search_button = driver.find_element_by_xpath('//*[@id="mountNode"]/div/div[4]/div

浏览 0提问于2018-09-14得票数 0

1回答

无gui的共享主机上的Selenium

、、

我需要在远程linux主机上运行Selenium (或其他可以处理javascript的webscraping工具)。我正在使用Python。这个是可能的吗？服务器没有gui，所以我不能运行浏览器。或者，如果我使用PyVirtualDisplay，我可以吗？用HtmlUnit运行Selenium怎么样？我尝试将Selenium与Selenium/PyVirtualDisplay/ChromeDriver一起使用，但一直收到各种错误消息。所以在我继续调试一些不可能的东西之前，我想知道这是否可能。

浏览 0提问于2013-03-16得票数 4

2回答

在IIS中将403禁止错误消息重定向到404

、、

如果我们通过在末尾附加文本“/../”来发布URL。IIS在响应报头中返回"403 -禁止访问“错误。有没有办法将IIS配置为返回"404 - Not Found“错误而不是"403"？这是一个asp.net web应用程序。我们网站的安全扫描指出，返回"403“可以帮助恶意的人绘制我们的网站；以前没有想到这一点，但我必须承认这是有道理的。

浏览 13提问于2020-02-14得票数 2

1回答

龙卷风403响应引发错误

、

在python中，我使用的是旋风库的HTTPRequest和AsyncHTTPClient().fetch方法。响应具有403状态代码。为什么龙卷风会在403的响应上引发错误，我如何从错误响应中获得更多的信息？例如，当我使用python“请求”库时，我仍然可以得到403，但是我可以检查响应的主体并获得更多的信息，而“旋风”会引发一个错误，而且我根本无法访问响应.

浏览 2提问于2018-01-06得票数 1

2回答

使用python从url中抓取和下载excel文件

、、、

第一个问题，所以别对我太客气。我正在尝试以编程方式从一个使用python的网站下载所有的excel文件。我对webscraping非常陌生，所以我的代码可能达不到标准--我在下面介绍了一下。当我运行脚本时，我看不到任何输出，也找不到我想要下载的文件。不确定我搞错了什么，或者我是否运行了错误的脚本。我通过anaconda navigator运行它，使用脚本导航到目录，然后使用以下代码运行它： python file-scraper.py 以下是我的脚本的代码。如有任何帮助或建议，欢迎光临！ from bs4 import BeautifulSoup as bs import requests

浏览 1提问于2021-02-10得票数 0

5回答

如何在Java中防止403 HTTP错误代码？

、、

我使用简单的代码来获取的超文本标记语言，但它显示错误http code 403。我尝试在其他网站，如google.com在程序中，它可以工作。我也可以在浏览中打开www.ip-adress.com，为什么我不能在java程序中使用它。 public class urlconnection { public static void main(String[] args) { StringBuffer document = new StringBuffer(); try { URL url = new URL("http://www.ip-

浏览 0提问于2012-12-03得票数 4

回答已采纳

2回答

从python程序接收数据以使网页上的对象具有动画效果

、

早上好，stackoverflow！我不确定你们中是否有人尝试过这样做，但基本上我想完成这样的事情：- python程序不断地将数据发送到我的网站-使用该程序将进行数据计算并使网站上的图像具有动画效果。所以我的问题是: 1.我应该使用什么方法将python与网站进行通信？越简单越好(试着阅读django，我流了鼻血) 2. javascript是移动图像的最好方法吗？或者flash更好? 3.如果flash更好，是否可以使用python的输入并将其传递给flash？

浏览 3提问于2011-02-13得票数 0

回答已采纳

2回答

将刮取的数据加载到Postgresql中

、

我已经结合了一些关于网络抓取的教程，并制作了一个简单的网页爬虫，这是刮新张贴的问题在这里所以。我想将它们加载到我的postgresql数据库中，但是我的爬虫给我看的解码错误有问题。错误： 2015-06-09 06:07:10+0200 [stack] ERROR: Error processing {'title': u'Laravel 5 Confused when implements ShoudlQueue', 'url': u'/questions/30722718/laravel-5-confused-when-i

浏览 3提问于2015-06-09得票数 1

回答已采纳

1回答

加载网站服务器端返回403错误

前几天，我试图从一个网站获取RSS信息，但当我试图使用PHP加载它时，它返回了一个403错误。这是我的PHP代码： <?php $rss = file_get_contents('https://hypixel.net/forums/-/index.rss'); echo $rss; ?> 我所犯的错误是： failed to open stream: HTTP request failed! HTTP/1.1 403 Forbidden 我必须说，定期从浏览器加载它很好，但是当我尝试使用PHP或任何其他服务器端方法加载它时，它就不能工作了。

浏览 1提问于2017-09-30得票数 1

回答已采纳

1回答

从网站中提取表格

、、、、

我已经多次尝试检索这个网站上的表格： (“历史参与”下的那个) import urllib2 from bs4 import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://www.whoscored.com/Players/845/').read()) 这是我用来检索表html的Python代码，但是我得到了一个空字符串。帮帮我！

浏览 1提问于2015-03-31得票数 1

回答已采纳

3回答

Webscraping -不要显示html代码的文本部分

、、、、

当我试图通过python使用Selenium库在when上抓取一个网站时，我遇到了一个问题。重点是，我想得到一些关于歌曲的信息，收集到这个网站：。但是，当我试图从相应的html代码中提取文本时，进程将返回一个空列表。如果我查看浏览器中的html代码(Chrome)，我将看到文本部分，但是当我查看python中的相同代码时，文本部分就不会出现了。这是我的代码： browser = webdriver.Chrome() browser.get("https://bandcamp.com/?g=all&s=top&p=0&gn=0&f=all&w

浏览 0提问于2018-10-23得票数 3

回答已采纳

1回答

从简单get返回403禁止，但在浏览器中加载良好

、、、

我正在尝试从一个页面中获取一些数据，但是它正在返回错误403禁止的。我以为是用户代理，但我尝试了几个用户代理，但它仍然返回错误。我还试图使用库，但没有成功。 with requests.Session() as c: url = '...' #headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2224.3 Safari/537.36'}

浏览 0提问于2018-03-28得票数 4

回答已采纳

2回答

BeautifulSoup没有返回完整的html - 403禁止吗？

、、

我在解析网站时遇到了问题。似乎有一个"403禁止“的错误。这是不是意味着我不能浏览这个网站？如果是这样的话，有没有什么办法呢？ import requests from bs4 import BeautifulSoup import lxml URL = 'https://frequentmiler.com/best-credit-card-sign-up-offers/' webpage = requests.get(URL) soup = BeautifulSoup(webpage.content, 'lxml') print(soup.pre

浏览 0提问于2021-02-25得票数 0

3回答

使用BeautifulSoup进行网络抓取(Jupyter Notebook)

、、、

下午好, 我对Webscraping还是个新手。我正在尝试从一个开源门户网站抓取数据集。只是想弄清楚怎样才能抓取网站。我正在尝试从data.toerismevlaanderen.be获取数据集这就是我想要的数据集：我总是以http错误结束: HTTP错误404:未找到这是我的代码： import requests import urllib.request import time from bs4 import BeautifulSoup url = 'https://data.toerismevlaanderen.be/' response = requests.get

浏览 0提问于2019-11-15得票数 1

1回答

如何使用请求登录本网站

、、

我试图用python和webscraping自动化一些任务。但首先，我需要登录到一个网站，我有一个帐户。我在堆栈溢出上看到了几个例子，但出于某种原因，这个网站不允许我使用请求登录。有人能告诉我我做错了什么吗？网页：表单变量: ctl00$MainContent$uEmail ctl00$MainContent$uPassword 是变量名中有“$”吗？任何帮助都将不胜感激。 import sys print(sys.path) sys.path.append('C:\program files\python36\lib\site-packages\pip\_vendor'

浏览 4提问于2017-10-21得票数 0

回答已采纳