python爬虫链接_爬虫 python_python 爬虫 - 腾讯云开发者社区

、、、

我在试着了解网络爬行是如何工作的。有三个问题：我们是否必须有一个初始的URL目录来构建一个更大的URL目录？这是怎么回事？有没有用python编写的开源web爬虫？哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

1回答

用于下载邮件列表归档的开源项目，最好使用Python

、

我想知道是否有任何开源项目(最好是Python)可以用来下载(crawl?)Lucene/Hadoop等开源项目的邮件列表归档(如)。我特别寻找一个(Apache)邮件列表档案定制的爬虫/下载器(不是一个通用的爬虫，如Scrappy)。任何指点都是非常感谢的。谢谢。

浏览 2提问于2012-10-27得票数 4

回答已采纳

1回答

我有一个蜘蛛，爬行链接的网站通过。当同一个蜘蛛用不同的数据完成执行时，我想再次启动它。如何重新启动同一爬虫？这些网站是通过数据库传递的。我希望爬虫在一个无限循环中运行，直到所有的网站都被爬行。目前，我必须一直启动爬虫scrapy crawl first。是否有任何方法启动爬虫一次，它将停止时，所有的网站爬行？我搜索了同样的，并找到了一个解决方案，一旦它关闭/完成了抓取器。但我不知道如何以编程方式调用蜘蛛表单closed_handler方法。以下是我的代码： class MySpider(CrawlSpider): def __init__(self, *args, **k

浏览 7提问于2016-05-03得票数 0

回答已采纳

2回答

使用python提取网页上的URL列表的简单方法是什么？

、

我想创建一个简单的网络爬虫为乐趣。我需要网络爬虫来获得一个网页上的所有链接的列表。python库中有没有内置的函数可以让这一切变得更容易？感谢您提供的任何知识。

浏览 5提问于2010-11-10得票数 1

1回答

与VB.Net HTTPWebRequest相比，Python URLOpen的速度很慢

、、、

嗨，我正在编写一个网络爬虫，这将爬行网站，并有选择地解析网站的不同部分。我是一个.Net开发人员，所以我选择用.Net做这件事是显而易见的，但是速度非常慢，包括下载和解析HTMLPages 然后，我尝试先使用.Net下载内容，然后使用python下载相同的域名，但python在下载数据方面给人留下了深刻的印象。我已经使用python实现了下载，但是后面的部分并不容易用python编写，这显然不是我想要做的。同一批域名在Python中需要100秒，而在基于.Net爬虫中需要20分钟我尝试下载，在Python语言中用了8秒，在.Net crawler中用了100秒有人知道为什么这在.Net

浏览 0提问于2011-02-12得票数 0

回答已采纳

1回答

解释URL中的相对路径

、

我正在用python编写一个“网络爬虫”，它接受一个URL，并根据链接到有限的深度进行深度优先搜索。我遇到的问题是如何解释URLS中的相对路径。在页面上，可以看到"Starting“链接；它看起来像<a href="starting-out" class="nxtlink">Starting Out</a>。如何根据我的浏览器判断这个链接是指向"“还是"”？然而，在页面上有一个链接<a href="Finalprojects.pdf">here</a>，它解析为"

浏览 1提问于2011-03-03得票数 1

回答已采纳

2回答

如何将新的URL传递给Scrapy Crawler

、、、、

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler，crawler将进行URL调用，并将提取的项返回给我。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因

浏览 0提问于2013-05-23得票数 2

2回答

测试我的网站在程序中是如何显示的

、、、、

网站不仅可以被浏览器上的用户访问，还可以被程序、机器人和爬虫访问。我有一个运行在上的带有python的网站，它具有由python程序通过组合、合并和循环字符串生成的非静态HTML页面。但是，它们也不是动态页面，因为生成这些页面不需要用户输入。python生成内容完全是为了方便、简洁和易于维护，并且完全由url设置。一些搜索引擎无法对动态页面进行索引。我想知道这些页面是否符合“动态”，即它们是否可以被这类机器人为通常的元数据和内容进行爬行或索引，并且通常希望有一种方法来检查任何url在机器人或爬虫中是如何出现的，比如搜索引擎使用的url，这样我就可以看到某个url何时是不可爬的。如果有人知道

浏览 5提问于2012-01-09得票数 0

回答已采纳

1回答

如何在windows上安装python-spidermonkey

我正在写一些使用python机械化的脚本。我遇到的一个问题是，很难找到哪些支持javascript的web客户端抓取或爬虫。我找到了一些，比如python-spidermonkey和pykhtml，但大多数都只在Linux上支持。我想用exe文件制作我的python脚本，所以我一定要安装在windows平台上。我的问题是，有没有在Windows上安装python-spidermonkey或pykhtml的方法？

浏览 0提问于2009-11-13得票数 0

3回答

下面的Python代码做了什么？这就像一个带括号的列表理解。

、

我正在研究用Python编写的网络爬虫，我偶然发现了一个非常简单的爬虫。但是，我不理解下面代码中突出显示的最后几行： import sys import re import urllib2 import urlparse tocrawl = [sys.argv[1]] crawled = [] keywordregex = re.compile('<meta\sname=["\']keywords["\']\scontent=["\'](.*?)["\']\s/>') linkregex = re.

浏览 2提问于2012-08-02得票数 2

回答已采纳

1回答

如何实现广度优先和深度优先搜索网络爬虫？

、、、、

我正试图用Python编写一个带有美丽汤的web爬虫，以便为所有链接抓取一个网页。在我获得主页上的所有链接后，我试图实现深度优先和广度优先搜索，以找到100个附加链接。目前，我已经抓取并获得了主页上的链接。现在我需要帮助实现我的爬虫的深度第一和宽度第一方面。我相信我的网络爬虫正在做深度优先搜索。这是正确的，还是我的代码没有正确地进行深度优先搜索？此外，如何调整代码以创建广度优先搜索？我相信我需要一个队列并使用pop函数，但是我不知道如何正确地执行循环，因为我对Python并不熟悉。我尝试过调整我的代码，但是到目前为止，我尝试过的任何东西都没有取得正确的结果。 from pandas imp

浏览 0提问于2019-04-20得票数 2

3回答

Python web crawler与MySQL数据库

、、、、

我想创建或找到一个用Python编写的开源网络爬虫(爬虫/机器人)。它必须找到并跟踪链接，收集元标签和元描述，网页的标题和网页的网址，并将所有的数据放入一个MySQL数据库。有谁知道可以帮助我的开源脚本吗？此外，如果有人能给我一些关于我应该做什么的建议，那么他们将非常受欢迎。

浏览 4提问于2011-08-11得票数 6

回答已采纳

1回答

Python中使用Selenium的屏幕抓取:由Javascript构建的链接

、、、、

我正在使用Selenium和Python构建一个网络爬虫，但我遇到了一些问题。爬虫通过使用查找所有链接来工作 ListlinkerHref = self.browser.find_elements_by_xpath("//*[@href]") 并在ListlinkerHref上迭代。这对于具有href属性的经典链接非常有效。然而，快速浏览一下www.primitiveworldproductions.com主页第110和135行之间的源代码(大约)就会看到一堆使用Javascript构建的链接，但看不到href属性。我对Javascript几乎一无所知，我查阅了Seleniu

浏览 4提问于2013-06-22得票数 0

1回答

如何从网站的数据库中抓取链接？

、、

我是搜索引擎新手，我发现googlenews非常有趣。我想写一个简单的爬虫只解析三个不同新闻网站的文章链接。将链接保存在数据库(mysql)中，并使用链接在网站上公布的时间戳(而不是爬虫检测到链接的时间)。如您所知，新闻网站每天都会生成链接(我想基本上解析它们的所有链接(不仅仅是今天打印的链接，还包括生成before...and的所有链接--所有这些链接都保存在新闻网站数据库中)。我不知道我想爬的新闻网站使用的是哪个数据库，我也没有访问它的权限。那么googlenews如何能够解析所有新闻网站的所有文章链接，包括很久以前生成的链接呢？googlenews可以访问

浏览 4提问于2014-06-06得票数 3

回答已采纳

5回答

如何在Python中从HTML页面中提取URL

、、

我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢？换句话说，有没有一个简单的python程序可以作为通用网络爬虫的模板？理想情况下，它应该使用相对简单的模块，并且应该包括大量的注释来描述每一行代码所做的事情。

浏览 2提问于2013-03-20得票数 17

2回答

Python -单元测试

、、

对不起，如果这是一个很愚蠢的问题，但我已经找了很久了，只是无法弄清楚。因此，我有一个关于单元测试的问题，不一定是关于Python的，但是由于我目前正在使用Python，所以我选择以它作为我的问题的基础。我知道单元测试的概念，但我在互联网上唯一能找到的就是非常简单的单元测试。就像测试方法sum(a，b)是否返回a+ b的和一样。但是，在处理更复杂的程序时，如何应用单元测试？举个例子，我写了一个爬虫。我不知道它还会有什么，否则我就不需要爬虫了。那么，在不知道该方法将返回的情况下，如何测试爬虫是否正常工作呢？提前感谢！

浏览 1提问于2014-01-18得票数 3

回答已采纳

1回答

crawler抓取chrome扩展id

、、

我该如何为谷歌chrome扩展网站编写一个爬虫呢？我正在做一些关于chrome扩展的安全研究。每个类别大约有100个扩展，我现在遇到的问题是编写一个爬虫来至少抓取UID。这个网站似乎是用javascript更新的。如果我抓取html，我将什么也得不到，因为该站点似乎会在稍后阶段加载页面的其余部分。换句话说，我需要的核心内容(即包含所有扩展元素的DOM )似乎是在我使用python抓取HTML之后加载的。有什么想法吗？

浏览 2提问于2012-04-21得票数 1

回答已采纳

1回答

网络爬虫更合适吗？

、、

TL;DR版本:，我只在我没有参与的智力对话中听说过网络爬虫。我只想知道他们能走一条特定的道路，比如： first page (has lot of links) -->go to links specified-->go to links(specified, yes again)-->go to certain link-->reach final page and download source. 我在谷歌上搜索了一下，发现了。但我不确定我是否完全理解网络爬虫的开始，是否好斗可以帮助我遵循我想要的具体路径。长版本我想提取一组静态网页的文本。这些网页非常简单

浏览 0提问于2014-10-08得票数 0

1回答

用机器学习理解Python中的网站结构

、、

我一直致力于抓取网页和提取网站的元素。例如:给定一个网站-爬虫应该返回以下部分:页眉、菜单、页脚、内容等。我在想，如果我能使用机器学习来训练代码来学习如何对网站进行分类，那就太好了。我尝试查看Python机器学习库(例如: PyBrain)，但示例非常复杂。有没有人可以向我推荐一个库和一些教程，告诉我如何通过一些简单的例子开始使用Python机器学习？谢谢!

浏览 0提问于2011-10-23得票数 1

回答已采纳

2回答

检查网站每个链接的最佳方式是什么？

、、

我想创建一个爬虫，跟踪网站的每个链接，并检查网址，看看它是否工作。现在，我的代码使用url.openStream()打开URL。那么创建爬虫的最好方法是什么呢？

浏览 1提问于2011-09-02得票数 2

回答已采纳

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？我在考虑标准输入/输出，但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数据已经写入文件，以及让php脚本知道爬虫何

浏览 1提问于2011-03-31得票数 1

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

web爬虫点击网页上的特定元素的逻辑是什么？

、、、、

我已经编写了一个爬虫应用程序，它打开给定的网页，并将HTTP请求和存储在excel表中。现在，我有了一些使用jQueries绑定单击事件的按钮(或者您可以想到按钮的onClick事件)。现在，让我的爬虫点击这些按钮，获取HTTP请求，并按照我前面的话做同样的事情，这可能是逻辑。所以简单地说，我如何让我的爬虫点击按钮？

浏览 2提问于2013-11-09得票数 0

8回答

python中的网络爬虫。我应该从哪里开始，我应该遵循什么？-需要帮助

、

我对python有一定的中级水平。如果我必须用python编写一个网络爬虫，我应该遵循什么以及从哪里开始。有什么特别的tut吗？任何建议都会很有帮助。谢谢

浏览 3提问于2010-07-29得票数 6

1回答

如何轻松地在远程github分支和本地分支/文件夹之间切换？

、、、

会发生什么事？我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3，这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。我做了什么/我有什么？我目前有一个远程分支，它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支，它们每天都会被执行。这个分支必须继续运作。对于远程分支，我有本地文件夹/分支，修复错误并创建新的。让我们把它叫做Local.，从主人那里，我推拉。现在，由于“所有操作都必须保持活动状态”，我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem

浏览 3提问于2019-09-10得票数 0

回答已采纳

1回答

试图创建一个简单的python web爬虫

、

我已经决定学习python2.7编码的数据分析，并一直在youtube上观看许多教程，以了解基本知识。我正处于这样的阶段，我想为了教育目的而创建简单的网络爬虫，只是为了学习不同的技术，并且只是习惯了一些编码。我遵循一个网站爬虫教程，但我不确定一些事情。到目前为止，这就是我所拥有的： import requests from bs4 import BeautifulSoup url = 'http://www.aflcio.org/Legislation-and-Politics/Legislative-Alerts' r = requests.get(url) plain_

浏览 0提问于2016-10-31得票数 0

回答已采纳

1回答

指向根目录的HTML站点地图链接

、

我有一个由以下元素组成的HTML站点地图( sitemap链接到我的页脚) logo (linking to / ) link for the first block of 150 links link for the second block of 150 links .... 我现在有一个SEO魔术大师，这不能解释我为什么，但他说，标志必须链接到首页和每一页与150个链接块应该链接到/sitemap。他简单地说：“这正是谷歌所喜欢的”。我是开发商。我知道爬虫的工作原理，以及那些写得很好的爬虫器(我们可以假设google爬虫是最先进的爬虫器)，解析页面中的所有链接，只访问/爬行以前没有访问

浏览 0提问于2012-07-14得票数 3

回答已采纳

5回答

快速网络爬虫

、、、

我想进行大规模的数据挖掘。为此，我需要一个快速爬虫。所有我需要的是下载一个网页，提取链接和递归跟随他们，但不访问相同的网址两次。基本上，我想避免循环。我已经用python写了一个爬虫，但是太慢了。我不能用它来饱和100Mbit线。最高速度约为40个urls/秒。由于某些原因，很难得到更好的结果。这似乎是python的多线程/套接字的问题。我也遇到了python的gargabe收集器的问题，但这是可以解决的。顺便说一句，CPU不是瓶颈。那么，我应该使用什么来编写一个尽可能快的爬虫，以及在爬行时避免循环的最佳解决方案是什么？编辑:解决方案是组合multiprocessing和threadin

浏览 4提问于2011-10-05得票数 8

回答已采纳

1回答

我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次？

、、、、

我正在制作一个爬虫来找出最近添加的youtube视频，当我的爬虫到达旧视频(在前一个转弯中爬行)时，我想停止爬虫。我使用的不是scrapy和漂亮的汤，我使用的是python库。请给我推荐任何选项

浏览 9提问于2017-06-27得票数 0

1回答

在ubuntu的后台运行时，爬虫停止。

、

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好！有什么问题吗？这是关于网页的块吗？或者nohup命令有限制时间？非常感谢。

浏览 1提问于2014-05-20得票数 0

回答已采纳

1回答

使用scrapy创建一个简单的python爬虫

、、

我目前正在尝试使用Scrapey在python中创建一个简单的爬虫。我想让它做的是读取链接列表，并保存链接到的网站的html。现在，我能够获得所有的URL，但我无法弄清楚如何下载页面。这是到目前为止我的爬虫的代码： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from tutorial.items import BookItem # Book scrappy spider class DmozSpider(BaseSpider): name = "boo

浏览 1提问于2012-08-28得票数 1

回答已采纳

1回答

IOError(e.errno，e.strerror，e.filename) IOError：[Errno 2]没有这样的文件或目录：

、、

我是python的新手。当我试图运行一个抓取页面中的链接的爬虫时，我得到了这个错误。我已经安装了python2.7并在osx上工作。我的爬虫程序所做的是，它转到页面，试图找到该页面中存在的所有链接，并将所有这些链接存储在一个列表中。接下来，我们尝试抓取所有新的链接，并继续重复相同的操作，直到没有链接可抓取。 File "crawler.py", line 44, in <module> print crawl_web("https://en.wikipedia.org/wiki/Devil_May_Cry_4") File "crawl

浏览 0提问于2015-09-20得票数 1

1回答

谷歌将爬虫重定向至Branch.io Play

、、、

我的branch.io链接在iOS、安卓和桌面上的效果与预期一样，但当我查看爬虫看到的内容时除外。我如何告诉所有使用branch.io链接的爬虫访问我的应用程序的Google Play页面(这样我就可以获得反向链接)？

浏览 2提问于2018-04-12得票数 0

1回答

如何提取我的爬虫目前所站的网址？

、、

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？谢谢。

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

scrapy.crawler与scrapy.spider的差异？

、

我对抓取很陌生，对爬虫和蜘蛛也很困惑。这两种方式似乎都能抓取网站并解析项目。在Scrapy有一个class(/usr/local/lib/python2.7/dist-packages/scrapy/crawler.py) Crawler和一个CrawlerSpider 。有人能告诉我他们之间的区别吗？我应该在什么条件下使用哪一种？提前谢谢！

浏览 5提问于2012-11-27得票数 3

回答已采纳

1回答

Apache获取和更新b阶段

、、、、

我有一个问题，关于Nutch如何获得链接来更新爬行数据库。所讨论的命令是bin/nutch updatedb crawl/crawldb $s1 我需要编写一个自定义解析器，在这样做之前，我已经检查了Nutch的源代码，就我而言，我负责提供更新爬虫数据库的链接，方法是从文档中提取它并在ParseData中以ParseData的形式插入它。至少这是我从了解到的。如果我错了，请纠正我，因为我不希望我的爬虫在第一次迭代之后停止，因为它没有链接来更新爬虫数据库。

浏览 1提问于2017-07-06得票数 0

回答已采纳

1回答

分布在不同地理位置的爬虫

、、

我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器，其中的数据是索引。有没有可能在Nutch中创建这样的爬虫？还有没有别的选择。基于Python的爬虫会更好。

浏览 2提问于2011-07-04得票数 0

回答已采纳

1回答

Web Crawler的常用输出格式

需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么？它会是XML，JSON吗？或者它会根据爬虫的不同而不同，例如: Python，Java？

浏览 0提问于2012-08-20得票数 0

回答已采纳

1回答

当建立一个搜索引擎网站爬虫，它应该开始爬行整个互联网？

、

我试图建立一个搜索引擎，其中一个主要组成部分是一个网络爬虫，我被困在一点，在开始的时候，爬虫将开始爬行。它需要一个网页来爬行。第一个网页应该是什么？

浏览 8提问于2021-12-08得票数 1

2回答

网络爬虫-忽略Robots.txt文件？

、、、

一些服务器具有robots.txt文件，以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件？我正在为python使用Mechanize。

浏览 1提问于2011-12-05得票数 14

回答已采纳

2回答

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

、、

我用python编写了一个爬虫，它可以访问60多个网站，解析HTML，并将数据保存到数据库。现在，我正在使用cron作业，每15分钟运行一次爬虫。问题是，我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟)，如果已经在运行，我不想再运行另一个爬虫。我一直在想，我是否最好使用一个无限循环，并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢？以及如何在每次退出时重新启动？)。哪一个更有效率？无限循环还是cron作业？

浏览 7提问于2021-05-14得票数 0

3回答

爬虫在索引内容之前是否需要一个robots.txt文件？

你需要一个robots.txt文件为爬虫索引你的网站，还是它只是不允许任何内容，你不希望爬虫索引？

浏览 0提问于2012-02-01得票数 3

1回答

将我的Python电子邮件爬行器转换为Web应用程序的框架

在Python方面经历了几年之后，我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数)，它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序，这样其他员工就可以通过我来抓取电子邮件，这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序？制作网络应用程序所需的时间范围是什么？我非常开放和渴望学习web应用程序开发，因此，任何帮助或建议将不胜感激。谢谢。

浏览 5提问于2015-07-08得票数 0

回答已采纳

2回答

我如何建立一个爬行器，将无限地进行？

、、、

我想让一个爬虫，只会一直无限地前进，直到一个网页没有链接。每次它抓取一个页面时，它都会返回网页的html，这样我就可以解析它，并从文章或p标记中获得标题、元标记和信息。我想让它看起来像这样： while(num_links_in_page > 0){ html = page.content /* code to parse html */ insert_in_db(html, meta, title, info, url) } 我正在为DB使用php、javascript和MySQL，但是我没有问题切换到python或任何其他语言，对于分布式系统我没有太多的钱，但是我需要它快速，并

浏览 4提问于2022-10-12得票数 0

5回答

Python中的多线程爬虫真的可以提高速度吗？

、、

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？会不会每个线程从套接字中提取一些数据，然后转到下一个线程，让它从套接字中提取一些数据，等等？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

2回答

抓取内存错误(请求太多)Python2.7

、、、、

我一直在运行一个抓取爬虫在抓取一个大网站，我宁愿不提。我使用教程蜘蛛作为模板，然后创建了一系列启动请求并让它从那里爬行，使用如下所示： def start_requests(self): f = open('zipcodes.csv', 'r') lines = f.readlines() for line in lines: zipcode = int(line) yield self.make_requests_from_url("http://www.e

浏览 1提问于2015-06-16得票数 1

回答已采纳

1回答

如何在爬行器中添加尝试异常？

、

我用urllib2和漂亮汤构建了一个简单的爬虫应用程序，现在我打算把它变成刮擦蜘蛛，但是如何在运行爬虫时处理错误，我的当前应用程序有如下代码， error_file = open('errors.txt','a') finish_file = open('finishlink.txt','a') try: #Code for process each links #if sucessfully finished link store into 'finish.txt' file except Exc

浏览 3提问于2014-10-28得票数 2

回答已采纳

4回答

Bingpreview使电子邮件中的一次性链接无效

、、、

看起来Outlook.com使用爬虫来抓取电子邮件中的链接。但一次性链接在打开电子邮件之后和用户有机会使用它们之前被标记为已使用/过期。我尝试在<a>中添加一个rel="nofollow“，但是没有成功。如何阻止电子邮件中每个链接的爬虫？谢谢

浏览 30提问于2017-01-17得票数 8

1回答

如何从playstore中的应用程序获取权限信息？

、、

我正在开发一个python爬虫，从Play Store中的应用程序中检索一些信息。我的爬虫检索应用程序评级、开发人员等等，但不检索权限。这是因为谷歌使用的是假链接，而且没有html可以捕捉到。有人知道如何获取这些信息吗？欢迎任何帮助！提前谢谢。

浏览 4提问于2015-02-27得票数 2

6回答

如何让搜索爬虫正确地索引无限滚动的页面？

、

我有一个网站，我在上面实现了无限滚动:当用户到达页面的末尾时，就会进行AJAX调用，并将新内容附加到页面的底部。然而，这意味着搜索爬虫无法获得第一个“分页符”之后的所有内容。例如，我有一个页面，其中列出了所有带有"infographic“标签的项目。实际上有几十个这样的项目，但爬虫只能看到前10个项目，因为其他项目是根据内容相对于浏览器窗口的位置加载的。由于爬虫没有浏览器窗口，所以根本不会加载新项目。那么，什么才是正确的方式，让搜索爬虫通过无限滚动访问网页的全部内容，同时又允许用户享受无限滚动和没有分页的情况？

浏览 0提问于2012-05-28得票数 13

回答已采纳