linux系统网站日志蜘蛛爬行_linux系统蜘蛛日志_linux系统蜘蛛日志文件保存在 - 腾讯云开发者社区

sql-server、replication、storage-area-network、snapshot、database-mirroring

最近，我们受到谷歌机器人和其他各种机器人的打击(我们平均体验到的网站流量的60%来自于机器人。)我们正在尝试将Google流量分割到另一个服务器(低成本服务器)。但是，需要复制/或镜像数据库。

浏览 0提问于2011-06-08得票数 2

1回答

将请求传递给不同的蜘蛛

python、python-3.x、scrapy

我正在开发一个使用两种不同蜘蛛的网络爬虫(使用scrapy)：非常通用的蜘蛛，可以抓取(几乎)任何网站使用一串启发式提取数据。专门的蜘蛛，能够爬行一个特定的网站A，不能与一般蜘蛛爬行，因为网站的特殊结构(该网站必须被爬行)。到目前为止，一切都运行得很好，但是网站A包含到其他“普通”网站的链接，这些网站也应该被刮掉(使用蜘蛛

浏览 2提问于2017-08-09得票数 1

1回答

为什么百度会疯狂地爬我的网站？

seo、web-crawlers、baidu

当我检查我的apache日志时，我可以看到百度在过去的2周里每天都在我的网站上爬行10次。这并不是说我很在乎，但我真的很好奇他为什么这么做。这是一个非常小的单一网页网站，没有多少传入链接。

浏览 0提问于2012-03-11得票数 12

回答已采纳

2回答

首先，我应该说，我对刮擦和蜘蛛网站完全陌生。你能限制爬行的链接数量吗？我有一个网站，不使用分页，只是列出了很多链接(我爬行)在他们的主页。当我真的需要爬行前10个左右的时候，我感觉很糟糕爬行所有这些链接。如何同时运行多个蜘蛛？现在，我使用的是命令scrapy crawl example.com，但我还为example2.com和example3.com提供了蜘蛛。我想用一个命令来运行我所有的蜘蛛。这有可能吗？

浏览 2提问于2010-11-24得票数 6

1回答

使用Python请求打开页面时出错

python-2.7、beautifulsoup、python-requests

requests.get(link)soup.prettify()任何帮助理解为什么这个网站挂起将不胜感激这是一个流媒体音乐网站。我只想刮一下页面上写着当前歌曲是什么的部分。这就是全部。但是，也许这个页面是一个音乐流媒体网站这一事实导致了这个问题？我只想要消息来源的文本。没别的了。href="http://www.winamp.com/">Winamp</a

浏览 2提问于2013-12-13得票数 1

回答已采纳

1回答

用Anaconda运行抓取蜘蛛

python-2.7、scrapy、anaconda、scrapy-spider

你好，我正在努力完成在以下网站上找到的教程：文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py"，第43行，在load KeyError(“蜘蛛未找到：{}".format(spider_nam

浏览 5提问于2016-10-06得票数 2

回答已采纳

1回答

使用scrapy管理多个爬行器

python、screen-scraping、scrapy

起初我只有几个蜘蛛，但随着项目的发展，随着我抓取越来越多的站点，我可能会有数百甚至1000个不同的蜘蛛。管理这些蜘蛛的最好方法是什么，因为一些网站只需要爬行一次，有些网站需要更定期地爬行？在处理这么多网站时，scrapy仍然是一个很好的工具，或者你会推荐一些其他的技术吗？

浏览 1提问于2012-01-04得票数 2

2回答

robots.txt中的Noindex

robots.txt、noindex

我一直阻止谷歌使用robots.txt文件为我的网站建立索引。最近，我从谷歌的一位员工那里读到一篇文章，他说你应该用元标签来做这件事。这是否意味着Robots.txt不能工作？

浏览 0提问于2018-09-04得票数 3

回答已采纳

2回答

iOS中的Web爬行

ios、iphone、web-crawler、office365-restapi

如何在中实现爬行技术。任何参考/样例程序都会有帮助。提前谢谢。网络爬虫(也称为网络蜘蛛或网络机器人)是一种程序或自动脚本，它以一种有条不紊、自动化的方式浏览万维网。这个过程称为Web爬行或爬行。许多合法的网站，特别是搜索引擎，都将蜘蛛作为提供最新数据的一种手段。

浏览 4提问于2015-12-15得票数 0

1回答

如何用刮擦爬行多个域

scrapy、scrapyd、scrapy-spider

我有一个项目，在其中我必须爬很多不同的网站。所有这些网站爬行都可以使用相同的蜘蛛，因为我不需要从它的正文页面中提取项目。我认为的方法是将要在蜘蛛文件中爬行的域参数化，并调用scrapy爬行命令，传递域并启动urls作为参数，这样我就可以避免为每个站点生成一个蜘蛛(站点列表将随着时间的推移而增加)。如果是的话，如果我用不同的参数调度同一个蜘蛛几次，那么是否存在并发问题？如果这不是最好的方法，最好是每个站点创建一个蜘蛛</e

浏览 2提问于2014-07-01得票数 4

回答已采纳

1回答

刮擦，如何限制每个域的时间？

python、time、scrapy

答案之一是在一段时间后可以停止蜘蛛，但这不适合我，因为我通常每只蜘蛛都会发布10个网站。因此，我的挑战是，我有10个网站蜘蛛，我想限制时间在每个域名20秒，以避免陷入某些网站。该怎么做呢？一般来说，我也可以告诉你，我爬了2000家公司的网站，为了在一天之内，我把这些网站分成200组10个网站，并并行推出200只蜘蛛。这可能是业余的，但我是我所知道的最好的。计算机几乎冻结，因为蜘蛛消耗整个CPU和内存

浏览 6提问于2016-06-08得票数 0

回答已采纳

1回答

用反应器在不同的时间执行不同的蜘蛛

python、scrapy

我想点击django网站上的一个按钮，我的蜘蛛应该开始抓取。我尝试CrawlerProcess，但因为我使用不同的蜘蛛。我决定使用CrawlerRunner。在第一次爬行之后，一切都很好，但是第二个过程给了我这个错误。twisted.internet.error.ReactorNotRestartable因此，我尝试按照下面的代码解决方案，但是爬行器永远不会停止，它说的是ReactorAlreadyRunningmyspider.My_Spider) d.addBot

浏览 1提问于2020-08-26得票数 1

回答已采纳

2回答

使用Scrapy用单个蜘蛛抓取多个网站

python、python-2.7、web-scraping、scrapy、scrapy-spider

下面是蜘蛛的代码。现在，我不得不使用相同的蜘蛛来抓取下面的网站(例如)。事实上，被废弃的网站列表是无穷无尽的。所以，我想要一个普通的蜘蛛，可以刮任何网站。对于一个网站来说，它运行得很好。但是，对于具有不同结构的多个站点，如何实现呢？刮擦够解决这个问题了吗？

浏览 3提问于2015-08-25得票数 2

2回答

刮伤Start_URL不正确

python、url、scrapy、scrapy-spider

当我使用 (我从“检查(铬)”中的最上面一行得到)时，它会爬行，但看起来这是完全错误的站点。(我从检查页面的顶部获得了这个链接)有什么想法吗？提前谢谢！[2]/li[3]/dd').extract() return items 检查了robots.txt，这应该允许爬行他们的大部分网站奇怪的是，我已经将start_urls用于我的其他蜘蛛，它的工作方式与其他蜘蛛无关

浏览 0提问于2016-04-12得票数 0

3回答

“索引，跟随”和“跟随”的区别是什么？

html、seo、noindex

以下清单有哪些不同之处： <meta name="

浏览 4提问于2018-07-11得票数 6

1回答

HOw渴望seo更改采用effect?>

seo、updates

我有一个网站，我提交给谷歌，做了一些网站管理员工具的东西(网站地图，首选领域等)，并建立了大约一周前的分析。非常感谢

浏览 1提问于2014-03-25得票数 0

回答已采纳

2回答

抓饼干怎么操作？

cookies、web-crawler、scrapy

我必须爬行一个网站，所以我使用Scrapy来完成它，但是我需要传递一个cookie来绕过第一个页面(这是一种登录页面，您可以选择您的位置)如何处理曲奇？

浏览 0提问于2014-04-28得票数 2

回答已采纳

1回答

重复下载的文件来自相同的IP -建议？

ip-blocking

我有一些文件，可以从我的网站下载。每隔几个小时，所有文件都从同一个IP地址(98.137.207.97 -可能是Yahoo?)下载。我该怎么做？

浏览 0提问于2013-10-21得票数 0

8回答

我怎么知道Google多久爬一次我的网站？

website、google、web-crawler

我创建了一个相对较新的网站，我把它提交给了谷歌和所有的公司。我也使用谷歌的网站管理员工具。我想知道谷歌蜘蛛访问我网站的频率。我经常听到人们在论坛上谈论“我每小时爬行250页”等等……有软件可以使用吗？或者有什么东西可以分析我服务器的日志呢？谢谢

浏览 0提问于2010-01-23得票数 7

3回答

抓取:爬行多个蜘蛛，共享相同的项、管道和设置，但具有不同的输出。

python、web-scraping、scrapy、scrapy-spider

我试图使用Python脚本运行多个蜘蛛，该脚本基于官方文档中提供的代码。我的scrapy项目包含多重爬行器(Spider1、Spider2、等)，它爬行不同的网站，并将每个网站的内容保存在不同的JSON文件中(output1.json、output2.json等)。在不同网站上收集的项目具有相同的结构，因此蜘蛛使用相同的项、管道和设置类。输出由管道中的自定义JSON类生成。当我单独运行这些蜘蛛时，它们会像预期的那样工作，但是当我使用下面的脚本使用sc

浏览 2提问于2017-07-25得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

复制还是？

将请求传递给不同的蜘蛛

为什么百度会疯狂地爬我的网站？

抓取Django限制链接爬行

使用Python请求打开页面时出错

用Anaconda运行抓取蜘蛛

使用scrapy管理多个爬行器

robots.txt中的Noindex

iOS中的Web爬行

如何用刮擦爬行多个域

刮擦，如何限制每个域的时间？

用反应器在不同的时间执行不同的蜘蛛

使用Scrapy用单个蜘蛛抓取多个网站

刮伤Start_URL不正确

“索引，跟随”和“跟随”的区别是什么？

HOw渴望seo更改采用effect?>

抓饼干怎么操作？

重复下载的文件来自相同的IP -建议？

我怎么知道Google多久爬一次我的网站？

抓取:爬行多个蜘蛛，共享相同的项、管道和设置，但具有不同的输出。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐