开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在python中web抓取花费的时间太长并且没有输出

问题描述：在python中web抓取花费的时间太长并且没有输出。

回答：在Python中，web抓取的执行时间过长并且没有输出可能有多种原因。下面我将针对可能的原因和解决方案进行详细说明。

网络连接问题：首先需要确保你的网络连接正常，可以通过尝试访问其他网站来进行测试。如果网络连接存在问题，可以尝试重新连接或者检查网络设置。
请求超时：web抓取过程中，请求可能会因为超时而无法得到响应。可以通过设置合适的超时时间来解决这个问题。在Python的requests库中，可以使用timeout参数设置请求超时时间。例如：
请求超时：web抓取过程中，请求可能会因为超时而无法得到响应。可以通过设置合适的超时时间来解决这个问题。在Python的requests库中，可以使用timeout参数设置请求超时时间。例如：
网站限制访问：有些网站对频繁的请求会进行限制，可能会导致抓取过程过长或者无输出。可以尝试减少请求的频率，或者通过设置合适的headers信息来模拟浏览器访问，以规避网站的限制。在Python的requests库中，可以通过设置headers参数来添加请求头信息。例如：
网站限制访问：有些网站对频繁的请求会进行限制，可能会导致抓取过程过长或者无输出。可以尝试减少请求的频率，或者通过设置合适的headers信息来模拟浏览器访问，以规避网站的限制。在Python的requests库中，可以通过设置headers参数来添加请求头信息。例如：
网站反爬虫机制：有些网站为了防止被爬虫抓取数据，会设置反爬虫机制，如验证码、动态加载等。在这种情况下，可以尝试使用相关的爬虫框架（如Scrapy）来处理反爬虫机制，或者分析网站的加载机制，模拟相应的请求和操作。
代码逻辑问题：检查代码是否存在逻辑错误，例如没有正确处理返回的响应，没有提取需要的数据等。可以通过添加调试输出语句或者使用调试工具来定位问题。
硬件性能问题：如果你的机器性能较低，可能会导致web抓取过程耗时较长。可以尝试在性能较好的机器上运行代码，或者优化代码逻辑和算法。

以上是可能导致web抓取过程耗时过长并且没有输出的一些常见原因和解决方案。具体的解决方法需要根据具体情况进行调试和优化。如果你需要腾讯云相关产品的帮助，可以参考腾讯云的官方文档和产品介绍。

希望以上回答对你有帮助！

相关搜索:尝试在AdWords脚本中执行vlookup，但它花费的时间太长 Firebase身份验证在云函数中创建用户花费的时间太长 Pandas数据帧中的多个输出(Python Web抓取)Python selenium web在没有类名的嵌套跨度中抓取动态内容新手，正在从url抓取表，并且无法在python命令提示符中获得输出 Python Web抓取:在href中只读取那些包含"http“的值 Python web-在Windows中抓取和下载特定的zip文件在for-loop中创建新的变量/类实例？Python web抓取使用Python和Beautifulsoup进行web抓取(在类似Ubuntu的Linux中)在web抓取时使用python替代selenium中的time.sleep()？在Python中 - 如何执行没有输出的系统命令在Python MySQL中输出时没有定义的值？有没有办法在Kestrel/ASP.NET Core中获取在请求队列中花费的时间？对超过50k个条目的映射进行排序会花费太长时间。有没有更快的方法在dart中对地图进行排序？在我的gprof输出中，哪些c++ std函数需要花费相当多的时间？在SQL中连接多个公用表表达式(CTE)花费的时间太长(查询不会结束)是不是我的代码有问题？无法读取带有urls的csv以在python中对其进行web抓取在python web抓取中，find和select_one给出了不同的结果。在Web开发期间,我在用户输入验证中花费的时间百分比是多少？在python中没有使用while循环获得所需的输出

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Python爬虫实战题荟萃

公众号Python爬虫系列文章基础写完了，所以就有了一些实战题目，有兴趣的可以来去围观一下.,为什么要进行Python项目实战项目实战第二季

02

那些优秀的网络爬虫工具介绍，最后亮了！| 码云周刊第 16 期

技术干货 1、SpringMVC 执行流程及源码解析 2、使用 Vue2 和 Yii2 进行前后端分离开发 3、 SSM (十一) 基于 dubbo 的分布式架构 4、五大理由从 Python 转到 Go 语言 5、软件的复杂性: 命名的艺术技术分享 1、SpringMVC 执行流程及源码解析在SpringMVC中主要是围绕着DispatcherServlet来设计，可以把它当做指挥中心。这里先说明一下SpringMVC文档给出的执行流程，然后是我们稍微具体的执行流程，最后是流程大致的源码跟踪。 2、使

《Learning Scrapy》（中文版）第3章爬虫基础

本章非常重要，你可能需要读几遍，或是从中查找解决问题的方法。我们会从如何安装Scrapy讲起，然后在案例中讲解如何编写爬虫。开始之前，说几个注意事项。因为我们马上要进入有趣的编程部分，使用本书中的代码段会十分重要。当你看到： $ echo hello world hello world 是要让你在终端中输入echo hello world（忽略$），第二行是看到结果。当你看到： >>> print 'hi' hi 是让你在Python或Scrapy界面进行输入（忽略>>>）。同样的，第二行是输出结果。

06

更换网站的服务器，对SEO有影响吗?

若网站域名解析到新IP之后，旧IP直接无法访问，则在一段时间内，部分搜索引擎蜘蛛会继续抓取旧IP，从而导致抓取失败。

03

爬虫技术的门道，这篇文章总结的最全

Web是一个开放的平台，这也奠定了Web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特型、搜索引擎以及简单易学的HTML、CSS技术使得Web成为了互联网领域里最为流行和成熟的信息传播媒介；但如今作为商业化软件，Web这个平台上的内容信息的版权却毫无保证，因为相比软件客户端而言，你的网页中的内容可以被很低成本、很低的技术门槛实现出的一些抓取程序获取到，这也就是这一系列文章将要探讨的话题—— 网络爬虫。

04

如果有人问你Python爬虫抓取技术的门道，请叫他来看这篇文章

web是一个开放的平台，这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特性、搜索引擎以及简单易学的html、css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介；但如今作为商业化软件，web这个平台上的内容信息的版权却毫无保证，因为相比软件客户端而言，你的网页中的内容可以被很低成本、很低的技术门槛实现出的一些抓取程序获取到，这也就是这一系列文章将要探讨的话题—— 网络爬虫。

01

《Learning Scrapy》（中文版）第1章 Scrapy介绍HelloScrapy喜爱Scrapy的其它理由关于此书：目标和用法掌握自动抓取数据的重要性开发高可靠高质量的应用提供真实的开发进

下载本书代码：https://github.com/scalingexcellence/scrapybook。下载本书PDF（英文版）：http://file.allitebooks.com/20

04

python怎么删除缓存文件

首先输入“find.-name ‘__pycache__’ -type d -exec rm -rf {} \”命令删除所有子目录；

02

创建一个分布式网络爬虫的故事

编者按：作者通过创建和扩展自己的分布式爬虫，介绍了一系列工具和架构, 包括分布式体系结构、扩展、爬虫礼仪、安全、调试工具、Python 中的多任务处理等。以下为译文：大概600万条记录，每个记录有15个左右的字段。这是我的数据分析项目要处理的数据集，但它的记录有一个很大的问题：许多字段缺失，很多字段要么格式不一致或者过时了。换句话说，我的数据集非常脏。但对于我这个业余数据科学家来说还是有点希望的-至少对于缺失和过时的字段来说。大多数记录包含至少一个到外部网站的超链接，在那里我可能找到我需要的信息。因此

08

【Python 第74课】多线程

很多人使用 python 编写“爬虫”程序，抓取网上的数据。举个例子，通过豆瓣的 API 抓取 30 部影片的信息： import urllib, time time_start = time.time() data = [] for i in range(30): print 'request movie:', i id = 1764796 + i url = 'https://api.douban.com/v2/movie/subject/%d' % id d =

05

Python多线程/多进程释疑：为啥、何时、怎么用？

本指南的目的是解释为什么在Python中需要多线程和多处理，何时使用多线程和多处理，以及如何在程序中使用它们。作为一名人工智能研究人员，我在为我的模型准备数据时广泛使用它们!

02

Python：用一行代码在几秒钟内抓取任何网站

如果你正在寻找最强大的 Python 抓取工具？不要再看了！这一行代码将帮助你立即启动并运行。

03

mitmproxy抓包 | Python实时生成接口自动化用例（三）

前面已经给大家分享了mitmproxy的环境配置和基本使用，文章浏览量很高，相信对抓包工具感兴趣的朋友，已经熟练运用起来了。

02

NLP实战：对GPT-2进行微调以生成创意的域名

我的目标是创建一个对人有帮助并且超级简单的AI服务。做好GPT-2之后，我意识到它具有巨大的创作潜力，并且可以证明它在创作文字方面很有用。

02

一键计算华师一卡通的消费记录

继上次我写了个PHP脚本抓取我的一卡通消费记录（用PHP爬取个人一卡通的消费记录）之后，我遇到了一些奇怪的问题。比如说，我统计上个学期的一卡通的花费的时候竟发现少算了400+RMB，百思不得其解。直到前段时间我才发现，原来学校的这个网站查询到的信息是不完整的，有些记录竟然会有缺失，后来我请教了负责这一块的老师，老师表示大概是学校里面某些一卡通的消费机离线时间太长，消费记录没有同步到服务器上，所以造成了这个问题。

02

Python之爬虫框架概述

综述爬虫入门之后，我们有两条路可以走。一个是继续深入学习，以及关于设计模式的一些知识，强化Python相关知识，自己动手造轮子，继续为自己的爬虫增加分布式，多线程等功能扩展。另一条路便是学习一些优秀的框架，先把这些框架用熟，可以确保能够应付一些基本的爬虫任务，也就是所谓的解决温饱问题，然后再深入学习它的源码等知识，进一步强化。就个人而言，前一种方法其实就是自己动手造轮子，前人其实已经有了一些比较好的框架，可以直接拿来用，但是为了自己能够研究得更加深入和对爬虫有更全面的了解，自己动手去多做。后一种方法

09

爬虫技术的门道，这篇文章总结的最全

Web是一个开放的平台，这也奠定了Web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特型、搜索引擎以及简单易学的HTML、CSS技术使得Web成为了互联网领域里

07

解析Python爬虫赚钱方式

Python爬虫怎么挣钱？解析Python爬虫赚钱方式，想过自己学到的专业技能赚钱，首先需要你能够数量掌握Python爬虫技术，专业能力强才能解决开发过程中出现的问题，Python爬虫可以通过Python爬虫外包项目、整合信息数据做产品、独立的自媒体三种方式挣钱。

04

专栏：006：实战爬取博客

系列爬虫专栏崇尚的学习思维是：输入，输出平衡，且平衡点不断攀升。曾经有大神告诫说：没事别瞎写文章；所以，很认真的写的是能力范围内的，看客要是看不懂，不是你的问题，问题在我，得持续输入，再输出。今天的主题是：实战爬取. (涉及python文件操作，requests，BeautifulSoup，结构化数据) ---- 1：框架序号内容解释 01 内容介绍 -- 02 分解如何操作 -- 03 参考及介绍 -- 2：内容介绍目标抓取目标网站的全部博文： 01：博文

02

最简单的数据抓取教程，人人都用得上

这么简单的工具当然对环境的要求也很简单了，只需要一台能联网的电脑，一个版本不是很低的 Chrome 浏览器，具体的版本要求是大于 31 ，当然是越新越好了。目前 Chrome 的已经是60多了，也就是说这个版本要求也不是很高。

08

webscraper 最简单的数据抓取教程，人人都用得上

这么简单的工具当然对环境的要求也很简单了，只需要一台能联网的电脑，一个版本不是很低的 Chrome 浏览器，具体的版本要求是大于 31 ，当然是越新越好了。目前 Chrome 的已经是60多了，也就是说这个版本要求也不是很高。

00

如何用Python爬数据？（一）网页抓取

你期待已久的Python网络数据爬虫教程来了。本文为你演示如何从网页里找到感兴趣的链接和说明文字，抓取并存储到Excel。

02

10 分钟上手Web Scraper，从此爬虫不求人

但是不写爬虫，就不能方便的获取数据，自己写代码又要花费很多时间，少则一两个小时，多则半天的时间，这就让人很矛盾。

01

简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页

前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法，比如说修改网页链接加载数据、点击“更多按钮“加载数据和下拉自动加载数据。今天我们说说一种更常见的翻页类型——分页器。

03

教程｜Python Web页面抓取：循序渐进

今天，要为大家带来Python中Web页面的抓取教程。许多人看到代码就觉得头疼或是特别困难，其实Web爬虫是非常简单的。Python是面向对象的语言，而且与其他语言相比，类和对象都更容易操作，所以是Python Web爬虫最简单的入门方法之一。此外，还有许多库能简化Python Web爬虫工具的构建流程。

05

《Learning Scrapy》（中文版）第10章理解Scrapy的性能

通常，很容易将性能理解错。对于Scrapy，几乎一定会把它的性能理解错，因为这里有许多反直觉的地方。除非你对Scrapy的结构有清楚的了解，你会发现努力提升Scrapy的性能却收效甚微。这就是处理高性能、低延迟、高并发环境的复杂之处。对于优化瓶颈， Amdahl定律仍然适用，但除非找到真正的瓶颈，吞吐量并不会增加。要想学习更多，可以看Dr.Goldratt的《目标》这本书，其中用比喻讲到了更多关于瓶延迟、吞吐量的知识。本章就是来帮你确认Scrapy配置的瓶颈所在，让你避免明显的错误。

02

《Learning Scrapy》（中文版）0 序言

Dimitris Kouzis – Loukas有超过15年的软件开发经历。同时他也参与到教学活动中，受众广泛。

03

只要十分钟，用Python实现自动化水军评论

自己在写文章的时候，也有到处去逛一逛，渐渐发现了一些有意思的事，经常会有人用同样的评论到处刷，不知道是为了加没什么用的积分，还是纯粹为了表达楼主好人。那么问题来了，这种无聊的事情当然最好能够自动化咯，自己也来试了一把，纯属娱乐。

02

网页主体格式转换神器

这是一个简单的工具插件，目的是实现一个能够方便的获取网页主体的命令行工具，以方便我们以各种方式搜集整理学习资料，支持各种格式，有一些特色模式，为了简单这里也称之为格式。

02

对于Python编程者最有用和最常见的模块

前言你是否曾经被大量的python模块压垮过?你是否曾经在为一个特定的项目挑选一个时陷入困境?在本文中，我将与您分享一些我认为每个python开发人员都应该熟悉的python模块。我将把这些模块分为

03

使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号

不知道大家过年都是怎么过的，反正栏主是在家睡了一天，醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码，想起之前练手的时候写过一个抓取百度贴吧发帖记录中的邮箱与手机号的爬虫，于是开源分享给大家学习与参考。

02

爬虫面试题 | 系统设计 —— 如何设计一个网页爬虫

来源：https://juejin.im/post/598d1d3e51882548924134c2

03

使用 Excel和 Python从互联网获取数据

互联网上有极其丰富的数据资源可以使用。使用Excel可以自动读取部分网页中的表格数据，使用Python编写爬虫程序可以读取网页的内容。

02

Node后端数据渲染

通常情况下，SPA应用或前后端分离的开发模式下页面加载的基本流程是，浏览器端先加载一个空页面和JavaScript脚本，然后异步请求接口获取数据，渲染页面数据内容后展示给用户。那么问题来了，搜索引擎抓取页面解析该页面HTML中关键字、描述或其他内容时，JavaScript尚未调用执行，搜索引擎获取到的仅仅是一个空页面，所以无法获取页面上<body>中的具体内容，这就比较影响搜索引擎收录页面的内容排行了。尽管我们会在空页面的<meta>里面添加keyword和description的内容，但这肯定是不够的，因为页面关键性的正文内容描述并没有被搜索引擎获取到。

02

python爬虫进行Web抓取LDA主题语义数据分析报告

从网站提取数据的方法称为网络抓取。也称为网络数据提取或网络收集。这项技术的使用时间不超过3年。

01

用flask自建网站测试python和excel爬虫

今天我们分享一篇通过Python编写测试用Web应用程序，然后使用Excel和Python从编写的Web网站上获取数据的文章，让你学爬虫更方便。

01

爬虫抓取的门道——来看这篇

本文首发于我的个人博客，同步发布于SegmentFault专栏，非商业转载请注明出处，商业转载请阅读原文链接里的法律声明。 web是一个开放的平台，这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特性、搜索引擎以及简单易学的html、css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介；但如今作为商业化软件，web这个平台上的内容信息的版权却毫无保证，因为相比软件客户端而言，你的网页中的内容可以被很低成本、很低的技术门槛实现出的一些抓取程序获

09

sysdig命令参考手册

-p < output_format>， --print=< output_format>，

01

一文总结数据科学家常用的Python库（上）

我是Python语言的忠实粉丝，它是我在数据科学方面学到的第一门编程语言。Python有三个特点：

02

一文总结数据科学家常用的Python库（上）

我是Python语言的忠实粉丝，它是我在数据科学方面学到的第一门编程语言。Python有三个特点：

04

简易数据分析（七）：Web Scraper 抓取表格、分页器翻页数据

经典表格就这些知识点，没了。下面我们写个简单的表格 Web Scraper 爬虫。

04

一文总结数据科学家常用的Python库（上）

我是Python语言的忠实粉丝，它是我在数据科学方面学到的第一门编程语言。Python有三个特点：

03

独家 | 手把手教你用Python进行Web抓取（附代码）

作为一名数据科学家，我在工作中所做的第一件事就是网络数据采集。使用代码从网站收集数据，当时对我来说是一个完全陌生的概念，但它是最合理、最容易获取的数据来源之一。经过几次尝试，网络抓取已经成为我的第二天性，也是我几乎每天使用的技能之一。

02

网络爬虫是什么

网络爬虫又称网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。

04

Python中的多处理与多线程:新手简介

Python是一种线性语言。但是，当您需要更多的处理能力时，线程模块就派上用场了。

02

《Learning Scrapy》（中文版）第7章配置和管理

我们已经学过了用Scrapy写一个抓取网络信息的简单爬虫是多么容易。通过进行设置，Scrapy还有许多用途和功能。对于许多软件框架，用设置调节系统的运行，很让人头痛。对于Scrapy，设置是最基础的知识，除了调节和配置，它还可以扩展框架的功能。这里只是补充官方Scrapy文档，让你可以尽快对设置有所了解，并找到能对你有用的东西。在做出修改时，还请查阅文档。

09

写了个简单爬虫，分析 Boss 直聘自动驾驶岗位

两年前，朋友想知道 Boss 直聘上关于自动驾驶的岗位有哪些，于是，笔者写了一个简单的爬虫 crawler-boss ，将岗位的信息收集起来。

01

Python 抓取网页乱码原因分析

在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生这种情况的最大可能性就是编码问题：运行环境的字符编码和网页的字符编码不一致。比如，在 windows 的控制台（gbk）里抓取了一个 utf-8 编码的网站。或者，在 Mac / Linux 的终端（utf-8）里抓取了一个 gbk 编码的网站。因为多数网站采用 utf-8 编码，而不少人又是用 windows，所有这种情况相当常见。如果你发现你抓下来的内容，看上去英文、数字、符号都是对的，但中间夹杂了一些乱码，那基本可以

06

python和php哪个更适合写爬虫

相比与其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）

01

网络安全自学篇（十四）| Python攻防之基础常识、正则表达式、Web编程和套接字通信（一）

免责声明：本公众号发布的文章均转载自互联网或经作者投稿授权的原创，文末已注明出处，其内容和图片版权归原网站或作者本人所有，并不代表安全+的观点，若有无意侵权或转载不当之处请联系我们处理，谢谢合作！

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭