python爬虫配置_爬虫 python_python 爬虫 - 腾讯云开发者社区

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

2回答

PHPCrawl可以用于抓取网站吗?与Scrapy有何不同？

、、、、

我想刮几个网站，很多人建议使用Scrapy。它是基于Python的，因为我非常熟悉PHP，所以我寻找了替代方案。我得到了一个爬虫PHPCrawl。我不确定它是否只是一个爬虫，或者它也会提供抓取功能。如果它可以用于抓取-它将支持XPath或正则表达式。它怎么能和Python上的Scrapy相比呢？请建议我哪一个是最好的用来抓取网站。谢谢

浏览 0提问于2012-11-22得票数 0

回答已采纳

1回答

与VB.Net HTTPWebRequest相比，Python URLOpen的速度很慢

、、、

嗨，我正在编写一个网络爬虫，这将爬行网站，并有选择地解析网站的不同部分。我是一个.Net开发人员，所以我选择用.Net做这件事是显而易见的，但是速度非常慢，包括下载和解析HTMLPages 然后，我尝试先使用.Net下载内容，然后使用python下载相同的域名，但python在下载数据方面给人留下了深刻的印象。我已经使用python实现了下载，但是后面的部分并不容易用python编写，这显然不是我想要做的。同一批域名在Python中需要100秒，而在基于.Net爬虫中需要20分钟我尝试下载，在Python语言中用了8秒，在.Net crawler中用了100秒有人知道为什么这在.Net

浏览 0提问于2011-02-12得票数 0

回答已采纳

1回答

PyMySQL:- OperationalError：(2003，“无法连接到'localhost‘上的MySQL服务器([Errno111]连接被拒绝)”)

、、

我正在尝试运行一个抓取爬虫，每当爬虫打开/抓取/关闭时，我都会将数据保存到pymysql数据库中。当我在RDS上运行时，它没有给出任何类型的错误，但是当我切换到我的本地主机时，它给了我一个‘连接被拒绝的错误’。下面是我的runner.py文件的代码 import pymysql connection = pymysql.connect( host='127.0.0.1', port='3306', user='root', password='lifeisgood', db='sc

浏览 20提问于2021-11-02得票数 1

1回答

如何在apache nutch爬行时更改其配置

、、、

我的爬虫(ApacheNotch2.2.1)处于爬行状态。我必须更改nutch-site.xml中爬虫的一些配置。我已经知道，当爬虫处于运行状态时，请避免更改配置。我的问题是。我们能在运行状态下改变爬行器的配置吗？如果是，那么在爬行器中做一些更改时是否有任何阳离子？或者如果我们不能改变爬虫的配置，那么如果配置被改变了，它的缺点是什么？

浏览 0提问于2014-11-26得票数 1

回答已采纳

1回答

在多台计算机上运行crawler4j

、

我正在尝试使用实现一个爬虫。一切都很好直到：我只运行了一份。我不重新启动就连续运行它。如果我重新启动爬虫，url的收集并不是唯一的。这是因为爬虫锁定根文件夹(存储中间爬虫数据并作为参数传递)。当爬虫重新启动时，它将删除根数据文件夹.的内容。是否可以：防止根数据文件夹锁定。(因此，我可以同时运行多个爬虫副本。) 重新启动后，根数据文件夹的内容不会删除。(这样我就可以在停下来后恢复爬行器了。)

浏览 3提问于2014-05-11得票数 0

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？我在考虑标准输入/输出，但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数据已经写入文件，以及让php脚本知道爬虫何

浏览 1提问于2011-03-31得票数 1

1回答

如何轻松地在远程github分支和本地分支/文件夹之间切换？

、、、

会发生什么事？我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3，这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。我做了什么/我有什么？我目前有一个远程分支，它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支，它们每天都会被执行。这个分支必须继续运作。对于远程分支，我有本地文件夹/分支，修复错误并创建新的。让我们把它叫做Local.，从主人那里，我推拉。现在，由于“所有操作都必须保持活动状态”，我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem

浏览 3提问于2019-09-10得票数 0

回答已采纳

5回答

快速网络爬虫

、、、

我想进行大规模的数据挖掘。为此，我需要一个快速爬虫。所有我需要的是下载一个网页，提取链接和递归跟随他们，但不访问相同的网址两次。基本上，我想避免循环。我已经用python写了一个爬虫，但是太慢了。我不能用它来饱和100Mbit线。最高速度约为40个urls/秒。由于某些原因，很难得到更好的结果。这似乎是python的多线程/套接字的问题。我也遇到了python的gargabe收集器的问题，但这是可以解决的。顺便说一句，CPU不是瓶颈。那么，我应该使用什么来编写一个尽可能快的爬虫，以及在爬行时避免循环的最佳解决方案是什么？编辑:解决方案是组合multiprocessing和threadin

浏览 4提问于2011-10-05得票数 8

回答已采纳

1回答

我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次？

、、、、

我正在制作一个爬虫来找出最近添加的youtube视频，当我的爬虫到达旧视频(在前一个转弯中爬行)时，我想停止爬虫。我使用的不是scrapy和漂亮的汤，我使用的是python库。请给我推荐任何选项

浏览 9提问于2017-06-27得票数 0

1回答

在绑定DNS缓存上阻止错误配置的DNS条目

、、、

我正在运行一个具有自己的绑定DNS缓存的网络爬虫。我们的代码使用DNS缓存进行解析，并使用Python的请求库发出GET请求。问题是许多FQDN配置错误，它们指向RFC1918 IP地址或环回IP(如127.0.0.1或10.0.0.0/8 )。因此，我们的爬虫试图连接这些it，并以来自数据中心的扫描报告结束。我们对爬虫进行了更改，现在它首先为FQDN解析ip，如果IP处于私有/回环/保留范围，则跳过它。在对tcpdump进行嗅探之后，我发现仍然存在流向私有IP地址的流量。我认为它们的发生是因为HTTP重定向，因为我们检查了原始的FQDN，但是我们不检查重定向的主机，因为这个部分发生在P

浏览 0提问于2015-12-30得票数 2

回答已采纳

1回答

在ubuntu的后台运行时，爬虫停止。

、

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好！有什么问题吗？这是关于网页的块吗？或者nohup命令有限制时间？非常感谢。

浏览 1提问于2014-05-20得票数 0

回答已采纳

1回答

如何提取我的爬虫目前所站的网址？

、、

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？谢谢。

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

用StormCrawler和弹性搜索对旧网站进行归档

、

当风暴爬虫重新访问一个已经被获取的网站时，它会在elasticsearch索引中更新相应的文档。即旧内容被新内容覆盖。是否有任何允许我们保留某些字段的旧版本并用时间戳对其进行注释的风暴爬虫功能？我们研究了elasticsearch的滚动api和吞食管道。吞食管道看起来很有希望修改elasticsearch文档的更新操作。是否有任何方法通过风暴爬虫配置将管道参数(即?pipeline=xxx)附加到相关的elasticsearch请求？

浏览 0提问于2018-06-12得票数 0

回答已采纳

1回答

分布在不同地理位置的爬虫

、、

我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器，其中的数据是索引。有没有可能在Nutch中创建这样的爬虫？还有没有别的选择。基于Python的爬虫会更好。

浏览 2提问于2011-07-04得票数 0

回答已采纳

1回答

Web Crawler的常用输出格式

需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么？它会是XML，JSON吗？或者它会根据爬虫的不同而不同，例如: Python，Java？

浏览 0提问于2012-08-20得票数 0

回答已采纳

1回答

TYPO3 - indexed_search -爬虫配置-多语言站点

、、

我想禁用前端索引，利用爬虫。如何设置以下爬虫配置： ( A)用几种语言索引页面树 ( B)用几种语言编制定制记录索引但是，在文档中没有任何关于语言的内容：

浏览 0提问于2018-07-24得票数 1

回答已采纳

1回答

Scrapy 1.0 -从python脚本运行后获取返回值

、、

我使用以下代码从python脚本运行我的爬虫程序： import scrapy from scrapy.crawler import CrawlerProcess process = CrawlerProcess() process.crawl(MySpider) process.start() # the script will block here until the crawling is finished 我的MySpider返回一个对象。如何从中获取返回值？请记住这是Scrapy 1.0。我找到的所有示例都是针对旧版本的Scrapy。上面的代码来自：

浏览 0提问于2015-07-12得票数 2

2回答

网络爬虫-忽略Robots.txt文件？

、、、

一些服务器具有robots.txt文件，以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件？我正在为python使用Mechanize。

浏览 1提问于2011-12-05得票数 14

回答已采纳

2回答

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

、、

我用python编写了一个爬虫，它可以访问60多个网站，解析HTML，并将数据保存到数据库。现在，我正在使用cron作业，每15分钟运行一次爬虫。问题是，我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟)，如果已经在运行，我不想再运行另一个爬虫。我一直在想，我是否最好使用一个无限循环，并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢？以及如何在每次退出时重新启动？)。哪一个更有效率？无限循环还是cron作业？

浏览 7提问于2021-05-14得票数 0

1回答

将我的Python电子邮件爬行器转换为Web应用程序的框架

在Python方面经历了几年之后，我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数)，它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序，这样其他员工就可以通过我来抓取电子邮件，这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序？制作网络应用程序所需的时间范围是什么？我非常开放和渴望学习web应用程序开发，因此，任何帮助或建议将不胜感激。谢谢。

浏览 5提问于2015-07-08得票数 0

回答已采纳

1回答

如何在aws胶水中进行模式演化？

我使用爬虫在aws胶水中创建了一个表，然后在s3中添加了一个具有不同模式的分区，然后再次运行该爬虫。当我从分区视图中查看分区的模式时，它会显示新的模式，但是该表的模式保持不变。胶水中的模式进化是如何工作的？glue什么时候更新表的模式，如果有的话？

浏览 2提问于2018-06-27得票数 2

回答已采纳

2回答

如何将新的URL传递给Scrapy Crawler

、、、、

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler，crawler将进行URL调用，并将提取的项返回给我。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因

浏览 0提问于2013-05-23得票数 2

5回答

Python中的多线程爬虫真的可以提高速度吗？

、、

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？会不会每个线程从套接字中提取一些数据，然后转到下一个线程，让它从套接字中提取一些数据，等等？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

1回答

网络爬虫更合适吗？

、、

TL;DR版本:，我只在我没有参与的智力对话中听说过网络爬虫。我只想知道他们能走一条特定的道路，比如： first page (has lot of links) -->go to links specified-->go to links(specified, yes again)-->go to certain link-->reach final page and download source. 我在谷歌上搜索了一下，发现了。但我不确定我是否完全理解网络爬虫的开始，是否好斗可以帮助我遵循我想要的具体路径。长版本我想提取一组静态网页的文本。这些网页非常简单

浏览 0提问于2014-10-08得票数 0

1回答

Python-Selenium爬虫冻结，特别是在无头模式下(不可复制的bug)

、、、、

我构建了一个爬虫，它获取用户输入的产品列表的产品信息。有时，爬虫会结冰，特别是如果产品列表很长，如果爬虫在无头模式下运行的话。这个bug似乎是随机的，也是不可复制的，这让我认为它是由被爬行的网站的资源利用引起的。因为这是一个不可复制的错误，我不认为我能修复它，但有没有办法检测爬虫已经冻结，然后再试一次？下面是关于爬虫和bug的一些信息：爬虫是使用Selenium和Python构建的。这个错误发生在不同的网站和产品上。该错误发生在“正常”模式，但更多发生在无头模式。谢谢! 费利佩

浏览 2提问于2019-05-21得票数 1

1回答

如何有效地运行python web爬虫

、、、

我有一个python爬虫，它获取信息并将其放入SQL中。现在我也有了php页面，它从SQL读取这个信息，并表示它。问题是:为了让爬虫程序工作，我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫？还是我必须在我的电脑上运行？

浏览 1提问于2015-12-08得票数 0

回答已采纳

3回答

如何在Scrapy中的同一进程中运行多个爬行器

、、

我是Python & Scrapy的初学者。我刚刚创建了一个带有多个爬虫的Scrapy项目，在运行"scrapy crawl ..“它只运行第一个爬虫。如何在同一进程中运行所有爬行器？提前谢谢。

浏览 0提问于2014-04-11得票数 2

2回答

typo3网站爬网程序未编制索引

、、、、

我试图在一个旧的TYPO3 4.5网站上用索引搜索和站点爬虫来索引一个页面--但是我尝试了几乎所有的方法都没有效果。我正在运行站点爬虫程序，它将获得可以爬行的URL的完整列表，并且我正在运行整个队列我已经设置了“索引配置” 和一个网站爬虫但它不会建立索引 "cache_pages“表似乎也是空的-但是对所有页面都启用了缓存。我能错过什么呢？

浏览 5提问于2016-01-17得票数 3

1回答

将默认表属性分配给爬虫创建的表

我试图将表属性分配给用爬虫创建的表。这样做的目的是让所有使用爬虫创建的表具有相同的默认属性(加上它们通常拥有的属性)。我检查了爬虫创建界面中的选项，但没有看到这样的选项。在创建表之后创建一个python boto3脚本来修改表属性值，这是我唯一想到的事情。如果这在默认的爬虫功能中是不可能的，那么将表属性附加到使用某个爬虫创建的每个表上的可行方法是什么？编辑:一个可能的解决方案是创建一个lambda函数，检查胶水表中是否存在自定义参数，如果没有创建它们。

浏览 2提问于2021-01-20得票数 0

回答已采纳

1回答

如何使用python自动执行此下载提示？

、、

我使用selenium和python制作了一个爬虫，用于从特定的torrent站点下载torrent。当有人点击"magnet download“链接并点击"openμtorrent”时，下载就会发生。所以在点击"magnet download“之后，它会打开一个弹出窗口(不是μ弹出窗口)，并且必须点击"open javascript torrent”。我如何自动执行这一步？我附上了下面的图片。在这方面请帮帮我。我在堆栈中寻找解决方案，但没有一个答案对我有帮助。

浏览 18提问于2021-03-10得票数 0

回答已采纳

3回答

网络爬虫与Django前端的接口

、、

我试着做三件事。第一:抓取和存档，至少每天，一组预定义的站点。第二:对此数据运行通宵批处理python脚本(文本分类)。第三:向用户公开一个基于Django的前端，让他们搜索抓取的数据。我一直在使用Apache Nutch/Lucene，但当我可以使用另一个爬虫引擎时，让它与Django很好地配合似乎太难了。 about 建议我可以只用Django本身编写爬虫，但我不确定该怎么做。基本上--对于用Django或现有的python爬虫编写我可以适应的爬虫有什么建议吗？或者我是否应该在第二步中加入“变成Django友好的东西”，并编写一些胶水代码？或者，最后，我应该完全放弃Django吗

浏览 0提问于2009-06-09得票数 2

2回答

Elasticsearch HTTP API或python API

、、、、

我是一个实时分布式搜索引擎elasticsearch的新手，但我想问一个技术问题。我已经编写了一个python模块爬虫，它可以解析网页并使用本机信息创建JSON对象。我的模块爬虫的下一步是使用elasticsearch存储本机信息。真正的问题如下所示。哪种技术更适合我的场合？elasticsearch python API还是用于弹性搜索的RESTful API (elasticsearch-py)？

浏览 4提问于2015-12-01得票数 1

5回答

如何在Python中从HTML页面中提取URL

、、

我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢？换句话说，有没有一个简单的python程序可以作为通用网络爬虫的模板？理想情况下，它应该使用相对简单的模块，并且应该包括大量的注释来描述每一行代码所做的事情。

浏览 2提问于2013-03-20得票数 17

2回答

使用python提取网页上的URL列表的简单方法是什么？

、

我想创建一个简单的网络爬虫为乐趣。我需要网络爬虫来获得一个网页上的所有链接的列表。python库中有没有内置的函数可以让这一切变得更容易？感谢您提供的任何知识。

浏览 5提问于2010-11-10得票数 1

1回答

在某个时间运行Python程序

、

我已经建立了一个爬虫使用Scrapy爬行到一个网站并提取链接。我想让爬虫在每天的某个时间运行。我找到了python的来执行调度，但是我找不到从哪里开始。任何帮助都是非常有用的。

浏览 0提问于2014-04-08得票数 0

1回答

仅将一个s3分区文件添加到AWS Glue

、、、、

当涉及到在我的s3存储桶中运行爬虫时，我遇到了一些小问题。我的文件夹中有从redshift中转储的数据，这些数据被分成许多不同的文件。这些文件的命名约定如下： dump_0000_part_00.gz，dump_0001_part_01.gz .... 然而，当我的爬虫程序获取这个文件夹中的元数据时，它会生成几百个表，并认为这些切片文件中的每一个都是它自己的表。有没有办法告诉爬虫将所有这些切片文件分组到一个目录表中？

浏览 36提问于2019-12-17得票数 0

1回答

使用网络爬虫的伦理

、

我最近建立了一个简单的网络爬虫，我希望在网上使用它一点。我的问题是，我应该遵循什么道德准则，以及如何遵守它们。我听说了robot.txt文件，如何在python中打开它，以及如何处理它？它们是否是我需要遵循的其他道德准则，比如每秒最多的网站，等等？先来看看。

浏览 3提问于2013-08-23得票数 1

回答已采纳

1回答

使用多个EC2实例爬行

、

我用python编写了一个爬行过程，它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。因此，在这一点上，我有一个集线器和8个单独的爬行器(都在它们自己的实例上)不断地爬行和报告等等。我在想用小的，分开的爬行器：有冗余，所以如果一个爬虫被挂断，其余的爬虫可以继续工作。 (这是一个假设)如果每个爬虫都有自己独立的ip，我就有更好的网络利用率。我可以旋转几个爬虫或缩小规模取决于我目

浏览 2提问于2015-01-08得票数 0

回答已采纳

1回答

定期运行python程序作为防火墙中的后台服务。

、、

只要开始使用firebase + react就可以建立一个网站。我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如，股票价格的变化)。我已经有了负责解析数据的python爬虫，但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)？下面是我的系统的示例用法用户登录和订阅网站/数据他们很感兴趣我的爬虫将每1小时解析该网站并将数据更新到数据库。用户可以从数据库中看到网站变更的摘要。我想到的一个选择是在本地机器上运行爬虫，并使用REST将解析的数据更新到firebase数据库。然而，这似乎是一种非常低效/天真的方法，

浏览 0提问于2018-01-25得票数 3

1回答

从单个MongoDB队列获取信息的多个工作人员

、、、、

我正在用Python构建一个web爬虫，使用MongoDB来存储一个队列，其中包含所有要爬行的URL。我将有几个独立的工人，将抓取URL。每当工作人员完成URL抓取时，它将在MongoDB集合"queue“中发出请求，以获得要爬行的新URL。我的问题是，既然会有多个爬虫，我如何确保两个爬虫器不会同时查询数据库并获得相同的URL来抓取？非常感谢你的帮助

浏览 0提问于2014-03-29得票数 0

回答已采纳

1回答

如何用基于Python的Crawler机器连接Django？

、、

好日子，朋友们最近，我制作了一个基于python的网络爬虫机，它可以scrapes_一些新闻网站和django网页，收集用户的搜索标题和url。但是我不知道如何将基于python的爬虫机和django网页连接在一起，所以我正在寻找任何我可以参考的好资源。如果有人知道我可以参考的资源，你们能分享一下吗？谢谢

浏览 2提问于2019-10-11得票数 0

回答已采纳

1回答

web爬虫如何构建URL目录以抓取所需内容

、、、

我在试着了解网络爬行是如何工作的。有三个问题：我们是否必须有一个初始的URL目录来构建一个更大的URL目录？这是怎么回事？有没有用python编写的开源web爬虫？哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

1回答

可能的反爬行者

、

对于一个教育NLP项目，我需要一个所有意大利语单词的列表。我想我会写一个爬虫，从www.wordreference.com获取单词。我在机械化爬虫框架中使用Python。但当我使用代码时： br = mechanize.Browser() br.open("http://www.wordreference.com/iten/abaco") html = br.response().get_data() print html 我从"yahoo.com“那里得到了一些页面。这个网站有没有可能有防爬虫机制？

浏览 5提问于2011-04-07得票数 1

回答已采纳

2回答

crontab返回错误

、

我正在尝试用Linux crontab运行一些爬虫程序。这应该转到Python环境，其中包含 pyenv shell jake-crawler 这是我的crontab -e */10 * * * * /home/ammt/apps/crawler/scripts/bat_start.sh 这将每10分钟运行一次。当我键入以下命令时，此命令行工作正常 (jake-crawler) [jake@KIBA_OM crawler]$ /home/jake/apps/crawler/scripts/bat_start.sh [DEBUG|run.py:30] 2017-09-24 19:55:49,

浏览 2提问于2017-09-24得票数 0

2回答

有效地搜索大量URL列表

、、、

我正在建立一个网络爬虫，它必须爬行数百个网站。我的爬虫保存了一个已经爬行的urls列表。每当爬虫要爬行一个新页面时，它首先搜索已经爬行的url列表，如果已经列出了，则爬虫跳到下一个url，以此类推。一旦url被爬行，它就会被添加到列表中。目前，我正在使用二进制搜索来搜索url列表，但是问题是，一旦列表变大，搜索就会变得非常慢。因此，我的问题是，我可以使用什么样的算法来搜索一个urls列表(列表的大小每天增长到20到100 k)。爬虫目前是用Python编写的。但我将把它移植到C++或其他更好的语言中。

浏览 5提问于2016-06-23得票数 0

回答已采纳

2回答

需要web爬网帮助

嗨，我正在完成我的一个小爱好项目，创建一个小型搜索引擎。我想知道是否有人知道他们使用过的一个像样的健壮的开源网络爬虫？新手应该很容易安装和使用。感谢您没有搜索网络爬虫和粘贴列表。

浏览 2提问于2010-02-21得票数 4

1回答

如何解决“没有模块名为proxy”的错误？

、

我正在学习爬虫，在一些基本的爬虫之后，我尝试从github下载谷歌学者爬虫大师，看看它是如何运行的，在几个我可以修复的错误之后，我遇到了一个ModuleNotFoundError: No module named 'proxy'错误(middleware.py文件，from proxy import PROXIES行是问题)。这段代码有一些问题，其中包含python 3.x版本中不再支持/建议的解决方案，包括后来被重命名/移动的模块，但我无法确定这是否也是这种情况，希望能得到帮助。

浏览 3提问于2018-03-07得票数 0

1回答