Python webscraping抓取被阻止_Python请求被网站阻止_Python HTTP请求被阻止 - 腾讯云开发者社区

python、web-scraping、beautifulsoup、proxy

我想写一个python工具，可以自动下载给定immobilienscout24.de站点的HTML。为此，我尝试使用beautifulsoup，然而，解析后的HTML没有显示内容，而是询问我是否是一个机器人等，这意味着我的网络爬行器被检测到并被阻止(我可以在Firefox中访问该网站)。我还能做些什么来避免被检测到(例如，轮换代理、轮换用户代理、随机点击、其他未被检测到的网络抓取工具……)？我已经尝试使用我的手机IP，但得到相同的结果。GUI网络抓取工具不是一个选项，因

浏览 102提问于2020-11-02得票数 2

回答已采纳

1回答

寻找方向，以便建立一个在线网络抓取器数据库

python、database、web-scraping

我想开始用python编码，以便建立一个在线数据库。更具体地说，我想运行一个从其他网站(他们显然愿意分享他们的内容)收集数据的网站，以便集中信息。也许我可以单独概述一下我的想法，你们可以告诉我这是否有意义：我想托管一个运行类似django的网站，这样就可以执行python脚本或应用程序，从其他网站收集信息，剪切出重要的信息，然后整齐有序地显示出来那么，网站代码使用HTML，CSS和JS，然后是一个运行python和then...SQL的django框架？我希望这是有意义的，至少这是我现在正在考虑的。

浏览 20提问于2019-01-12得票数 0

1回答

通过Scrapy或Excel查询搜索的Python via抓取？

python、excel、web-scraping、scrapy

我的问题与发现通过Scrapy执行Python Web抓取的总体效率有关，而不是简单地通过Microsoft Excel为特定任务执行Web查询搜索。我想做的是自动从NFL网站上提取数据。当涉及到通过Scrapy的Python Webscrape时，挑战是开发代码来获得我正在寻找的所有信息。如果Microsoft查询搜索是更好的选择，那么是否值得开发代码？理想情况下，我的总体目标是通过Scrapy或Microsoft Excel利用Python Webscrape每周提取数据，这样我就不必自己手动操作了。其中包括从多个外

浏览 2提问于2018-10-18得票数 1

2回答

更改URL字符串中的单个值

python、python-3.x、python-requests

我正在学习网络抓取，我正在example.webscraping.com上练习。我可以从一个页面中提取我想要的信息，但我想知道如何以最简单的方式遍历多个页面。= 4: source =requests.get('http://example.webscraping.com/places/default/index/pagenum=%s').text

浏览 2提问于2019-11-06得票数 0

1回答

Webscrape w/o美汤

python、regex、python-2.7、function、web-scraping

一般来说，我对web scraping和python是个新手，但是我有点纠结于如何纠正我的函数。我的任务是抓取以特定字母开头的单词的站点，并返回匹配的单词列表，最好使用正则表达式。import urllib fhand = urllib.urlopen(website).read() line = fhand.strip() if line.startswith('h

浏览 0提问于2016-12-03得票数 0

1回答

ConnectionError: HTTPSConnectionPool(host='www.google.com'，port=443)：

python、html、python-3.x、web-scraping

我想从google.com中抓取网页结果。我遵循了这个问题的第一个答案，。不幸的是，我得到了连接错误。我碰巧也查过其他网站，它没有连接。是因为公司的代理设置吗？\python37\webscraping\lib\site-packages\requests\api.py"，第75行，在get返回请求(‘get’，url，params=params，**kwargs) 文件"c:\users\appdata\local\programs\python\python37\websc

浏览 1提问于2018-10-29得票数 0

2回答

将刮取的数据加载到Postgresql中

python、postgresql

我已经结合了一些关于网络抓取的教程，并制作了一个简单的网页爬虫，这是刮新张贴的问题在这里所以。我想将它们加载到我的postgresql数据库中，但是我的爬虫给我看的解码错误有问题。(self.methods[methodname], obj, *args) File "/home/

浏览 3提问于2015-06-09得票数 1

回答已采纳

2回答

Python Beautifulsoup webscraping抓取脚本

python、web-scraping

我是python新手。昨天才刚开始。我想从这个网站上抓取信息。我想提取联系人的基本信息，如全名，职位，电话，电子邮件，公司。

浏览 35提问于2019-04-22得票数 0

1回答

使用Requests和Beautiful Soup抓取表内容

python、web-scraping、beautifulsoup、screen-scraping、python-requests

Python/Webscraping初学者，请耐心听我说。我正在尝试从获取所有产品名称payload = {'q': 'Python',} titlessoup.findAll('td', attr

浏览 1提问于2015-02-07得票数 0

1回答

使用BeautifulSoup抓取问题

python、web-scraping

我刚开始使用python进行数据抓取，它给了我和错误以及idk如何解决它。这是我的密码。使用python/olxweb.py进行E:\Softwares\Anaconda\python.exe“D:/Course/Webscraping”(最近一次调用)：文件"D:/Courses/Webscraping

浏览 0提问于2021-06-20得票数 1

回答已采纳

1回答

如何从多个网页中提取内容？

python、web-scraping

我已经写了一段python代码来实现同样的功能。然而，我不确定如何使用相同的python模块从多个网站中提取。我最初使用下面的代码来提取网站的评论：D = download.Download()html = D.get('http://code.google.com/p/webscraping'

浏览 0提问于2017-04-25得票数 2

1回答

Python Webscraping抓取循环页面

python、loops、beautifulsoup

当我抓取一个页面时，我得到了我想要的结果。"e:\Programmieren\Projects\Webscraping\laola1_scraper.py"，回溯(最近一次调用)：job_title = jobs.find('h2'，class

浏览 6提问于2022-02-10得票数 1

回答已采纳

1回答

不知道如何下载合适的库，或者开始使用漂亮的汤来进行python* web抓取？*

python、python-3.x、web-scraping、beautifulsoup、python-3.8

绝对是使用pycharm和python3.8的初学者，我想开始webscraping，但我还没有理解任何关于如何实际获得使用漂亮汤的所有先决条件的教程。我可以使用pycharm的内置终端吗？只是整体上对开始抓取web的整个过程感到困惑。

浏览 0提问于2020-03-10得票数 0

1回答

除非按下搜索按钮，否则url无法获取数据

python

我正在尝试用python进行网络抓取。除非按下搜索按钮，否则链接"https://www.etnet.com.hk/www/eng/stocks/realtime/quote.php?那么，如何为python webscraping解决这个问题呢？code=883“来网络抓取股票数据，但由于url不起作用而失败。除非我手动按下搜索按钮，否则不会显示详细数据。你知道怎么修复它吗？

浏览 33提问于2019-10-01得票数 0

1回答

用Python从打开的Safari会话中提取cookie

python、http、cookies、web、urllib2

我可以很容易地使用urllib2进行网络抓取，但是，当然，您必须登录到这个网站才能获得数据。我尝试在Python中执行一种登录类型方法，但我无法让它工作。我的另一个选择是从Safari会话导出cookie，这样我就可以运行我的webscraping脚本来获取我需要的数据。有人知道如何将cookie从Safari会话导出到Python以访问网站数据吗？

浏览 0提问于2015-07-30得票数 1

回答已采纳

2回答

使用Python* Webscraping抓取的项目*

php、python、api、server

为了让我的ETA准确地出现在我的网站上，我有一个python脚本，它每分钟运行一次，从一个特定的站点上抓取这些坐标，做一个算法，并吐出一个ETA。

浏览 0提问于2017-05-30得票数 0

回答已采纳

1回答

Python中的Webscraping抓取挑战

python、web-scraping、beautifulsoup

我正在尝试用Python抓取这个。理想的输出是包含4列的dataframe :日期、作者、标题和文本。

浏览 1提问于2022-07-10得票数 1

回答已采纳

1回答

如何隔离网络刮擦的分类区域？

python、web-scraping、terminal、scrapy

webscraping的新手，我正在使用scrapy和python从特定网站抓取所有类别。其中包含web源代码(picture of web source)，我尝试过的代码如下所示。

浏览 13提问于2020-09-26得票数 0

回答已采纳

1回答

Webscraping抓取google搜索结果Python

python、python-requests、urllib、python-requests-html

我正试图在第一页搜索结果的某种形式的列表或字典中获得标题和链接。但是，我的输出在链接之前显示Element 'a' href=，标题显示Element 'h3' class=('LC20lb', 'MBeuO', 'DKV0Md')而不是实际标题。我已经阅读了许多例子，但大多数都提供了API订阅，这并不是更好的选择，我也没有搜索到那些我搜索过的漂亮汤方法。到目前为止，这是我对这个项目得到的最远的进展。我的代码如下：import urllib

浏览 7提问于2022-10-30得票数 -1

1回答

从网站获取数据-可调整日期范围的下载链接

python-3.x、web-scraping

非常新手的网络抓取，很抱歉留下这样一个悬而未决的问题。在某种程度上，我既想知道如何做到这一点，也想知道可行性。从哪里开始有什么建议吗？

浏览 12提问于2018-03-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云