域名爬虫_dns域名爬虫_域名采集爬虫 - 腾讯云开发者社区

如果域名只能通过Gmail电子邮件内容才知道，有人知道谷歌是否会将域名添加到爬虫列表中吗？一个从未有人链接过，也从未提交给谷歌或DMOZ的域名出现在了谷歌搜索结果中。有人知道他们有没有索引电子邮件的网址？

浏览 0提问于2011-11-21得票数 1

回答已采纳

4回答

对于那些把域名指向我ip的人，我能做些什么吗？

、

这是个奇怪的请求。出于某种原因，无论谁拥有safeandbuy.com，他们的域名都指向我的IP地址。这是一个问题，因为我有各种各样的爬虫，试图用那个域名爬行我的网站。我能做些什么吗？

浏览 0提问于2010-05-30得票数 9

回答已采纳

1回答

我们使用nutch 1.6来抓取网络。根据nutch的配置，应该给种子列表和域url-filter来遍历指定的域。但是，如果新发现的url的扩展名是co.uk (仅用于此扩展名)，我们可以通过将新发现的url的域添加到文件或数据库中来管理它，停止爬虫，更新域名url过滤器和种子列表，然后重新启动它。但是，我们如何才能在没有停止爬虫的情况下动态地完成这项工作呢？提前谢谢。附言: co.uk域名扩展只是一个例子，我们也可以添加多个扩展来允许。

浏览 0提问于2013-04-08得票数 0

回答已采纳

1回答

php中的简单爬虫回显链接

我想用php做一个简单的爬虫，它可以让我获取网页中的链接，回显它们的url，然后爬行到其他页面，在某个特定的域名下做同样的事情。这里有必要使用cURL吗？Also..how会指定爬虫的深度。到目前为止，我有这样的想法： $dom = new DOMDocument; $dom->loadHTML($html); foreach( $dom->getElementsByTagName('a') as $node ) { echo $dom->saveXml($node), PHP_EOL; }

浏览 1提问于2011-07-06得票数 0

回答已采纳

1回答

如何在Scrapy中运行多个相同的爬虫？

、

我有一个url列表，例如[‘ '，'，...]。这些urls在一个域名中，我用Scrapy编写了一个爬虫程序，我需要使用相同的爬虫程序一起运行这些urls。如果我有10个urls，我想创建10个相同的进程来运行爬虫程序，以提高效率。有解决方案吗？我尝试使用CrawlerProcess来运行爬虫，但是如果urls太多，它会提醒我有太多TCP连接的错误。虽然crawler始终处于运行状态，但这种方法不利于维护。 from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_proje

浏览 0提问于2019-01-06得票数 0

1回答

与VB.Net HTTPWebRequest相比，Python URLOpen的速度很慢

、、、

嗨，我正在编写一个网络爬虫，这将爬行网站，并有选择地解析网站的不同部分。我是一个.Net开发人员，所以我选择用.Net做这件事是显而易见的，但是速度非常慢，包括下载和解析HTMLPages 然后，我尝试先使用.Net下载内容，然后使用python下载相同的域名，但python在下载数据方面给人留下了深刻的印象。我已经使用python实现了下载，但是后面的部分并不容易用python编写，这显然不是我想要做的。同一批域名在Python中需要100秒，而在基于.Net爬虫中需要20分钟我尝试下载，在Python语言中用了8秒，在.Net crawler中用了100秒有人知道为什么这在.Net

浏览 0提问于2011-02-12得票数 0

回答已采纳

2回答

IP屏蔽会影响SEO结果/排名吗？

、、

当用户进入域名www.example.com时，它必须从IP检查国家，并应重定向到其他语言特定的域名，例如: www.example.co.in。搜索引擎爬虫会同时识别www.example.com和www.example.co.in吗？这会影响搜索引擎的排名吗？有人可以指导我使用IP掩码的缺点。谢谢和问候，卡维塔

浏览 0提问于2010-01-08得票数 2

1回答

如何在wordpress .htaccess中删除url结尾？

谷歌爬虫错误地将我的域名添加到我的站点中每个链接的末尾:(例如：www.mydomain.com/folder/www.mydmain.com (正如您可以看到的，添加到链接末尾的域名不是我的原始域名)。它发生在许多页面上，我想做的是创建301重定向与正确的网址，删除额外的www.mydmain.com在网址的结尾。我尝试了这里提供的几种解决方案，但都没有成功。如何在.htaccess中删除url末尾的多余字符串谢谢!Lior

浏览 2提问于2016-01-23得票数 0

1回答

更改Apify-ready模板中的.tld

、

是否可以在Apify商店的现成模板(如Tripadvisor Crawler)中更改顶级域名？我们的目标不仅是获得英语评论，还包括德语、法语等评论。如何在不编写新爬虫的情况下调整脚本？

浏览 8提问于2019-12-31得票数 0

1回答

标识GoogleBot:为什么要反向和转发DNS检查？

、、

为了识别GoogleBot爬虫HTTP请求，谷歌建议在请求IP地址上进行反向DNS查找，以检查域名是谷歌的。但是他们为什么要你做一个转发DNS检查呢？这样更安全吗？为什么？

浏览 6提问于2015-09-20得票数 1

回答已采纳

1回答

用于检测外来url的perl模块

、、、、

我正在制作一个爬虫，我只想使用美国的域名。例如，我希望： http://thenorthface.com/ 但我不想： http://uk.thenorthface.com or http://se.thenorthface.com/ 有没有人知道这样做的方法或者perl模块可以做到这一点？我知道这可以用正则表达式来完成，但我正在努力避免收集所有外国域名开头的列表……非常感谢!

浏览 2提问于2012-06-08得票数 1

回答已采纳

2回答

如何从网页或URL中了解地理来源？

、、

我正在构建一个网络爬虫，我试图弄清楚网页是从哪里来的。我的意思是，我可以检查域名(例如，来自阿根廷的.com.ar ar )，但还有其他网站，有其他的域名(.com，.net)也是阿根廷的，www.taringa.net就是一个例子。是一个阿根廷站点，但具有.net域。那么我该怎么做呢？谢谢。

浏览 1提问于2011-02-09得票数 2

回答已采纳

1回答

抓取过期域名

、、、

我使用Scrapy抓取不同的网站，但实际上我的脚本跟踪每个网站，并添加到数据库的域名和后，我用PHP脚本检查过期的域名。我希望有人能够帮助我改进我的脚本，因为实际的脚本没有为我的需要进行优化！我不知道为什么，但是爬虫会立即跳到不同的网站上找到“开始网址”，如果脚本在跳到其他网站之前完成对第一个网站的扫描会更好。在将域名添加到数据库之前，如何直接检查域名是否过期？我的爬虫： from scrapy.spiders import CrawlSpider, Rule from dirbot.settings import * from scrapy.linkextractors.lxmlht

浏览 0提问于2016-03-07得票数 3

1回答

在scrapy中抓取10个链接，然后停止抓取域名并从另一个开始

、

我正在使用scrapy。我已经给出了一个域名列表。它现在实际做的是抓取整个域，搜索pdf链接并将其存储在数据库中。这个过程是异步的。我想从每个域得到10个pdf链接，并停止爬虫。如何做到这一点？

浏览 0提问于2014-01-14得票数 0

1回答

如何防止我们的服务器公司出现问题

我们试图使用Stormcrawler抓取我们知道的每个站点的索引页面--礼貌地忽略任何robots.txt告诉我们不要这样做的地方。我们有一个域名数据库-大约250m -我们正在使用它作为一个开始。我们的想法是，我们每周爬行一次。我们收到了来自我们的服务器提供商的许多警告目前，我们的爬虫试图转到一个域名-例如abc123.com -当我们这样做时，域名没有解析，这会被“标记”。显然，有许多域名无法解析并指向相同的IP地址，因此，当我们尝试访问大量不起作用的域名时，我们认为这会导致我们的提供商向我们发送警报。我们的计划是在第一次爬行后，我们将识别不起作用的域名，我们只会每月爬行这些域名，看

浏览 15提问于2021-02-21得票数 0

2回答

使用sklearn和Python进行大型应用程序分类/抓取练习

、、、

我正在研究一个相对较大的基于文本的web分类问题，我计划在python中的sklearn中使用多项式朴素贝叶斯分类器，并使用scrapy框架进行爬行。然而，我有点担心sklearn/python对于一个可能涉及数百万网站分类的问题来说可能太慢了。我已经在DMOZ的数千个网站上训练了分类器。研究框架如下： 1)爬虫登陆一个域名，抓取网站上20个链接的文本(深度不超过1个)。(对于爬虫的示例运行，这里的标记化单词数量似乎在几千到150K之间变化) 2)运行具有大约50,000个特征的sklearn多项NB分类器，并根据结果记录域名我的问题是，对于如此大规模的应用程序，基于Python的分类器是否

浏览 0提问于2013-04-13得票数 5

1回答

关联内容& SEO，带有外部链接的站点地图，使用CNAME将外部链接作为我自己的链接包含在站点地图中

、、

是否有任何HTML代码或页面参数或metaname可以告诉搜索引擎一个页面的内容与另一个域上的另一个页面紧密链接。我保持更新的内容元数据库和关键字元数据库。我不想把这些链接给我的访客看。 1)我需要知道是否有专门与爬虫通信相关链接的协议，以提高我的排名我是否可以通过代码告诉爬虫(爬虫，特别是爬虫，比如没有跟踪地址给爬虫)，mydomain.com/Porduct.php是紧密相连的 http://ebay.com/sameProduct http://wikipedia.com/GenericProduct or http://google.com?q=someKeywords 我

浏览 6提问于2012-12-08得票数 1

3回答

爬虫如何确保最大的覆盖率？

、、

我读了一些关于Web爬行的文章，学习了爬行的基础知识。根据他们的说法，网络爬虫只使用其他网页检索到的URL，并通过树(实际上是网格) 在这种情况下，爬虫如何确保最大的覆盖率。显然，可能有很多网站没有来自其他页面/网站的推荐链接。除了爬行和手动注册之外，搜索引擎还遵循其他机制吗？(即从域名注册处获取信息) 如果它们只是基于爬行，我们应该如何选择一组好的“根”站点来开始爬行呢？(我们无法预测结果。如果我们选择100个没有引用链接的站点，引擎将只显示100个站点+它们的内部页面)

浏览 9提问于2009-06-04得票数 4

回答已采纳

1回答

如何获取现有所有dns记录的副本(即每个主要TLD的所有域->ip对的列表)？

、、、、

我正在尝试解析网页上每个域名的索引页。我能想到的唯一可以产生某种程度上可以接受的结果的替代方案是一个通用的网络爬虫来识别网络上的每个唯一的域。相反，我希望能够迭代通过网络上所有域名的列表。像这样的公共(或私有，但不是非常昂贵)数据库转储存在吗？可能回答这个问题的相关问题:是否有可能在不查询任何其他DNS服务器的情况下托管自己的dns服务器？我认为循环遍历所有可能的ipv4组合也是一种选择，但与所有注册域名的集合相比，这样做的针对性较差。

浏览 13提问于2019-02-08得票数 0

回答已采纳

1回答

仅抓取域名

、、

如何使用Scrapy实现只抓取域名？我对任何domain.tld的深度搜索不感兴趣。我的想法是从每个域的索引页面只使用1跳的深度-所以直接从主页链接将足够作为链接缓冲区。我需要尽可能快的爬虫作为唯一的。我想将域领域限制为.cz 谢谢。

浏览 11提问于2019-03-14得票数 0

1回答

我可以使用PowerDNS作为HTTP负载均衡器吗？

、

我想服务于多个web应用程序，并通过测试网络中的域名提供它们。因此，我想使用PowerDNS，因为它似乎有一个很好的API。web应用程序将由一小群爬虫来访问。我设想在两个服务器上运行相同域名的同一个web应用程序，以实现负载平衡。PowerDNS可以指向负载较少的服务器，还是需要另一段软件来实现这一点？我需要找什么？比如"HTTP负载均衡器“？这样的软件如何与DNS一起工作呢？

浏览 0提问于2016-02-23得票数 0

回答已采纳

1回答

如何使用AJAX测试我在Google上的爬虫能力？

、

我创建了我的网站，所以 site.com/#!/page/var1/ans1/var2/ans2 映射到 site.com/pages/page.php?var1=ans1&var2=ans2 使用Javascript。我也做到了 site.com?_escaped_fragment_=/page/var1/ans1/var2/ans2 映射到 site.com/pages/page.php?var1=ans1&var2=ans2 使用PHP，所以我的网站将显然是谷歌爬虫。我已经用Google Fetch测试过了，它似乎可以工作。然而，我尝试过测试我的网站的所有其他非谷歌蜘蛛都

浏览 0提问于2011-07-30得票数 1

回答已采纳

1回答

如何从网站的数据库中抓取链接？

、、

我是搜索引擎新手，我发现googlenews非常有趣。我想写一个简单的爬虫只解析三个不同新闻网站的文章链接。将链接保存在数据库(mysql)中，并使用链接在网站上公布的时间戳(而不是爬虫检测到链接的时间)。如您所知，新闻网站每天都会生成链接(我想基本上解析它们的所有链接(不仅仅是今天打印的链接，还包括生成before...and的所有链接--所有这些链接都保存在新闻网站数据库中)。我不知道我想爬的新闻网站使用的是哪个数据库，我也没有访问它的权限。那么googlenews如何能够解析所有新闻网站的所有文章链接，包括很久以前生成的链接呢？googlenews可以访问

浏览 4提问于2014-06-06得票数 3

回答已采纳

1回答

在Scrapy的项目中使用多个爬行器

我想知道是否有可能在同一个项目中一起使用多个爬虫。实际上我需要两只蜘蛛。第一个收集第二个蜘蛛应该抓取的链接。他们都在同一个网站上工作，所以域名是similar.Is它可能吗？如果是，你能给我举个例子吗？谢谢

浏览 0提问于2011-02-03得票数 10

回答已采纳

1回答

谷歌网站地图之谜

、

我试图提交一个网站的网站地图到谷歌网站工具，但我得到了一个非常奇怪的错误与域名。首先，我将站点地图作为RSS文档提交，我认为它是有效的()。我有两个问题。一个次要的问题是，响应带有标题“Content: application/rss+xml；charset=utf-8”，但是Webtool显示一个"Type：?“消息。第二，也是最重要的是，Web工具返回带有消息的错误“ 一般的HTTP :域名找不到“。但是，我能够解决域名()，而且这个名字在几个月前就已经注册了，所以应该不会出现域名问题。 $ resolveip vlab.mooo.info IP address of

浏览 4提问于2012-04-07得票数 1

回答已采纳

2回答

是否更好的烧录旧的域名和301为一个新的领域经历了大量的错误？

、、、

正如在本题中讨论的那样，几个站点由于服务器问题而关闭了大约一个月。我慢慢地看到一些比较受欢迎的网站获得了一些流量。我说得很慢。我还监控了谷歌网站管理员工具中的爬虫错误。上周，我决定烧毁其中一个域名，创建一个新域名，并将301个流量全部发送到该新域名。不到三天，新域名就已经有了有机的流量。服务器错误减少到大约30个(在Google中清除这些错误需要一段时间)，我想也许我只是等待得不够久，原来的域名终于恢复了流量。然而，我看到了有机的结果与新的域名和大量的流量(3天)。对于全新的领域，我已经看到索引在12天内发生。在旧域名上，我想删除的旧URL是410'ed。当服务器错误正在清除时，

浏览 0提问于2013-01-08得票数 2

2回答

将站点从.com域重定向到.ie域会影响SEO吗？

、、

我有两个域名。我的旧域(在Bluehost上)现在正在重定向到一个新域(在Blacknight上)。主页正在成功重定向，但其他内部链接仍指向旧域。我想要改变他们，所以他们都指向新的。这会影响网站的SEO吗？如果旧域是.com而新域是.ie，那么爬虫有什么区别吗？该网站主要面向爱尔兰访问者。

浏览 0提问于2018-03-16得票数 2

1回答

Scrapy -基于正则表达式处理的异地请求

、、

我必须抓取5-6个域名。我想写一个爬虫，这样离线请求如果包含一些子字符串的例子设置为aaa，bbb，ccc，如果离线url包含来自上面设置的子字符串，那么它应该被处理，而不是过滤掉。我应该编写一个自定义中间件，或者我可以只在允许的域中使用正则表达式。

浏览 11提问于2016-08-23得票数 0

回答已采纳

1回答

SEO为即将到来的新网站做准备

、、、、

我预订了一个域名，并创建了一个图片，说该网站即将推出。我应该做什么SEO准备，以避免损害我的SEO排名？因为我的页面是空白的，所以图像本身是用CSS显示的。只有标题中充满了信息。没有描述也没有关键词。这会损害我的搜索引擎优化排名，如果谷歌或其他爬虫会漫游到我的网站？

浏览 0提问于2013-03-12得票数 1

回答已采纳

1回答

Scrapy忽略allowed_domains？

、、

Scrapy忽略了我的爬虫规则，甚至遵循了不允许的域名。 self.start_urls = [ 'http://www.domain.de' ] self.allowed_domains = [ 'domain.de' ] 但在某些情况下，它工作得很好，并过滤不允许的域，请参阅日志：调试:对‘www.clubsoundz.fm’的非现场请求进行了过滤：我使用sgmllink提取器来跟踪链接，这是我的“规则”：规则=(规则(SgmlLinkExtractor()，callback='get_domain_data'，follow=True)

浏览 1提问于2014-12-27得票数 3

1回答

注册官是否将您的域名转发到您的托管站点url，违反Google AdSense TOS？

、、

NameCheap提供将流量转发到您选择的url，如果您使用的是免费的网络托管服务，并且/或有一天想要尝试另一个免费主机，这是非常方便的。然而，我不想节省50美元的托管费用，但被禁止从谷歌的adsense，因为违反了它的URL转发TOS。因此，除了技术方面的问题，谷歌的爬虫是否真的会转发到转发的域名，最大的问题是，这是做还是你会被禁止？

浏览 0提问于2011-06-11得票数 1

2回答

动态添加域名到爬虫deny_domains列表

、

我目前正在使用scrapy的CrawlSpider来查找多个start_urls列表中的特定信息。我想要做的是，一旦我找到了我想要的信息，就停止抓取一个特定的start_urls的域名，这样它就不会一直命中一个域名，而是直接命中另一个start_urls。有没有办法做到这一点？我尝试过像这样附加到deny_domains： deniedDomains = [] ... rules = [Rule(SgmlLinkExtractor(..., deny_domains=(etc), ...)] ... def parseURL(self, response): ... self

浏览 0提问于2012-05-19得票数 1

1回答

不允许搜索引擎对整个网站进行索引，同时允许保存元标题和描述。

我们在我们的站点上使用以下robots.txt： User-agent: * Disallow: / 我们希望保留这个功能(不允许爬虫索引站点的任何部分)，但是我们希望搜索引擎保存元标题和描述，这样当有人在搜索引擎中输入域名时，这些文本就会显示得很漂亮。据我所见，唯一的解决办法是创建一个单独的可索引页面，其中只有元标记。这是实现我们目标的唯一途径吗？会有什么副作用吗？

浏览 2提问于2016-01-28得票数 0

回答已采纳

1回答

从URL获取协议和域(没有子域)

、

这是的扩展，添加了这样的要求:我只想要域名，而不是子域。所以，比如说， Input: classes.usc.edu/xxx/yy/zz Output: usc.edu Input: mail.google.com Output: google.com Input: google.co.uk Output: google.co.uk 对于更多的上下文，我接受来自用户的一个或多个种子URL，然后在链接上运行一个刮伤爬虫。我需要域名(没有子域)来设置allowed_urls属性。我也看过，但答案似乎过时了。我当前的代码使用urlparse，但这也得到了我不想要的子域. from urll

浏览 0提问于2019-04-20得票数 3

回答已采纳

1回答

Apache Nutch 2.3.1在选择点提供了更多的种子域名

、、、

我已经为apache Nutch 2.3.1配置了完整的Hadoop/Hbase生态系统。我希望我的爬虫应该给那些在每次迭代中以种子形式给出的域更多的偏好。根据我的测试，它可以在任何一个方向上完成，即从外部链接中选择所有urls，反之亦然。让我们说，我希望40%选择的网址应该是从外部链接(而不是在种子)和60%的网址应该属于在种子中给出的域名。这是可能的吗?如何实现？我认为是生成器步骤导致了这种行为。

浏览 9提问于2018-03-28得票数 0

1回答

停止alexa以获取访客统计数据

、、、

我有没有办法阻止alexa来获得访问者的统计数据，我不希望每个人都在alexa中搜索我的域名，并获得关于总体用户统计的信息，或者获取哪个国家的用户浏览我的网站最多的信息或其他关于他们的统计数据。例如，当我们不希望爬虫到达我们的一些页面并限制对它们的索引时，我们使用nofollow作为元标签或链接的rel属性，但是我们能为alexa机器人做什么呢？有没有办法也限制alexa？

浏览 5提问于2013-02-19得票数 1

3回答

使用C#搜索多个网站

、、

我可以使用C#自动搜索网站，然后返回搜索结果吗？有没有一个网络爬虫可以做同样的事情，如果我给它一个顶级域名(例如:我告诉它在stackoverflow.com上找到“有趣”这个词，它就会告诉我每次出现“有趣”的时候)？这些网站允许通过它们的搜索栏进行搜索。我是否需要网站协作来自动执行搜索？注意:我每天只计划做一到两次搜索，所以我怀疑我会被屏蔽，或者被要求进行身份验证。

浏览 1提问于2011-08-24得票数 1

回答已采纳

1回答

抓取多个域和起始urls

、、、

我有一个简单的Sracpy爬行器，它将一个域中的所有页面导出到一个单独的csv文件。大多数人建议为每个站点编写不同的爬行器，但考虑到我所请求的信息是如此简单，我认为弄清楚如何遍历一系列域是有意义的。最终将有数以千计的域名，我想从那里获得链接，所有都有非常不同的结构，所以我希望蜘蛛规模。下面是爬虫从csv中提取域名的几行代码：这是我最近的尝试： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from NONPROF.

浏览 12提问于2018-09-01得票数 1

1回答

HTTP 301重定向中方案相关URI的支持范围有多广

、、、

我想有一个www的子域或替代顶级域名的请求重定向到一个规范的网址。为了避免HTTP/HTTPS问题，我认为最简单的方法是在Location头中发送一个与方案相关的URI，如下所示： HTTP/1.1 301 Moved Permanently Location: //example.com/ 这似乎可以在浏览器中很好地工作，但是的玩具»验证器«不能正确处理它。这只是一个写得不好的脚本，还是这种行为实际上在脚本、爬虫等中更常见？

浏览 2提问于2010-12-08得票数 2

回答已采纳

2回答

Python - Requests模块，获取域名？

、

我正在尝试使用requests模块构建一个网络爬虫，基本上我想要它做的是转到一个网页，获取所有的href，然后将它们写入一个文本文件。到目前为止，我的代码如下所示： def getLinks(url): response = requests.get(url).text soup = BeautifulSoup(response,"html.parser") for link in soup.findAll("a"): print("Link:"+str(link.get("href"))) 这在一些网站上有效，但我尝试

浏览 1提问于2016-01-05得票数 1

1回答

更改域名-涉及哪些实际步骤？

、、、、

可能重复: 如何重命名域并保存页面排名？几年前，我创办了一个网站，眼睛明亮，尾巴浓密，有征服世界的梦想。不幸的是，事实并非如此。现在，我有点老一点，更明智，我已经花了一些钱在品牌和创造更高质量的内容等，我是重新品牌和重新推出的网站与一个新的域名。虽然旧网站上的流量是可笑的(即不存在)，但有几页好的信息在那里，我不想失去这些网页可能已经获得任何“果汁”，因为网络爬虫已经看到它已经几年了。好的，结果是:我想把我的域名从example.com改为example.org。我维护的是我以前有相同的友好网址，只有网址的域名部分会改变，所以任何传入旧页面的流量都会被转发/重定向？无缝连接到新页面上。

浏览 0提问于2012-11-13得票数 0

2回答

将域指向特定的控制器/动作ASP.NET MVC

、、、、

我有一个ASP.Net MVC 4应用程序，我正在编写，它的一个功能是为我的客户提供自己的网站。访问这些网站的默认方式是http://www.abc.com/cb/acme 我想让他们把自己的域名指向这个位置，这样上面的内容就变成了http://www.acme.com。我能让他们用cname把acme.com指向http://www.abc.com/cb/acme吗？在你的观点和经验中，最好的方法是什么？更新：我也需要它是谷歌和必应爬虫友好，如果可能的话。

浏览 2提问于2013-06-30得票数 0

1回答

百度蜘蛛不服从DNS TTL

、、

4月16日，我把我的网站从一个VPS移到另一个VPS。域名的A记录具有86400的TTL。我在4月16日格林尼治时间19:00更改了IP地址。我不希望该网站面临停机时间，所以我是保持旧的VPS活着。今天是第三天，旧服务器上的访问日志显示百度蜘蛛的点击量。已经超过60个小时了，但是为什么这个爬虫还会撞到旧的IP地址呢？我使用AWS Router53进行DNS。

浏览 0提问于2014-04-19得票数 1

回答已采纳

2回答

仅允许大范围抓取Web爬行中的内部链接

、、、、

我正在使用Scrapy爬行成千上万的网站。我有一大串域名要爬。所有的工作都很好，只是爬虫遵循外部链接，这就是为什么它爬行的方式太多的领域超过必要。我已经尝试在SGMLlinkextractor中使用“SGMLlinkextractor”，但是当我解析到它的一个庞大的域列表时，这是行不通的。那么，我的问题是:如何将广泛的抓取限制在内部链接上？任何想法都很感激。更新:这个问题是由一个allow_domains列表引起的，该列表太大，难以处理。

浏览 1提问于2014-04-08得票数 3

回答已采纳

2回答

最优化的存储爬虫状态的方式？

、、、、

我目前正在编写一个网络爬虫(使用python框架)。最近，我不得不实现一个暂停/恢复系统。我实现的解决方案是最简单的一种，基本上，在它们被调度时存储链接，并在它们实际被处理时将它们标记为“已处理”。因此，我能够获取这些链接(显然，存储的不仅仅是URL、深度值、链接所属的域，等等)当恢复爬虫时，到目前为止一切运行正常。现在，我一直在使用mysql表来处理这些存储操作，主要用于快速原型设计。现在我想知道如何优化这一点，因为我认为数据库不应该是这里唯一可用的选择。所谓优化，我的意思是，使用一个非常简单和轻量级的系统，同时仍然能够在短时间内处理大量写入的数据目前，它应该能够处理几十个域名的

浏览 0提问于2009-11-13得票数 4

回答已采纳

1回答

在Controller.Start循环中调用Crawler4j？

、、

我问了一个问题，。但这是另一个听起来很相似的问题。使用crawler4j，我希望爬行对域名有限制的多个种子urls (即shouldVisit中的域名签入)。就是如何做到这一点的一个例子。简而言之，使用customData设置域名列表，然后将其传递给爬虫类(从控制器)和在shouldVisit函数中，我们循环遍历这些数据(这是一个列表，请参阅链接url)，以查看列表中是否有域名，如果返回为true。这里面有个小毛病。如果google.com和yahoo.com存在于种子url域名列表和www.yahoo.com/xyz链接到www.google.com/zyx的名称中，它将爬行页面，因为w

浏览 4提问于2013-11-09得票数 0

1回答

当你让搜索引擎爬虫通过，但为用户增加了额外的步骤时，你会受到搜索引擎的惩罚吗？

、

我目前正在为一个项目工作，其中网站的几个部分可能会受到限制，因为一个地区的用户居住。因此，当用户访问页面时，他会被重定向到一个表单，他必须完成该表单才能查看内容。希望搜索引擎索引内容，我正在为搜索引擎爬虫创建例外，以便它们可以轻松访问内容。我从页面中挑选了一些搜索引擎，我的解决方案是检查爬虫的IP地址(可以在我链接的页面上找到)，并根据授予的访问权限。这个解决方案是否足够可行？我之所以这样问，是因为我在谷歌官方网站管理员中心博客上读到了，该博客建议对机器人进行域名系统反向查找，以匹配其真实性。我不得不提一下，这没有安全隐患。如果我允许搜索代理机器人在用户被重定向时直接转到内容，我会受

浏览 0提问于2010-08-26得票数 3

回答已采纳

1回答

iOS应用程序的通用链接-它是如何工作的？

、、

我刚开始向iOS应用程序添加通用链接。我读过一些资料，但下面还有几个问题。任何指针都会非常感谢！苹果到底什么时候会爬上我的域名，检查[domain]/apple-app-site-association的内容？我有一个新的域名，我想知道苹果的爬虫怎么会发现它？在发布我的应用程序的第一个版本之前，在本地测试通用链接的推荐方法是什么？是否不可能对通用链接进行版本控制？例如，APP1.0版本只支持\item通用链接，而APP2.0版本则支持多一个模式\details。如果我在apple-app-site-association中指定了这两条路径，那么当用户导航到\details时，

浏览 1提问于2018-05-14得票数 2

回答已采纳

1回答

未在此服务器上配置的域。

、、

我正在实现网络爬虫，在这个过程中，我使用InetAddress类从域名中获取ip地址。我尝试了域名，en.wikipedia.org，得到了ip 208.80.154.224。现在，我尝试使用jSoup解析器从该服务器获取jSoup，但得到的错误如下 Exception in thread "main" org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404, URL=http://208.80.154.224/wiki/Cricket at org.jsoup.helper.HttpConn

浏览 1提问于2015-03-26得票数 3

回答已采纳

4回答

不更改主机文件重定向HTTPS通信量

、、、

我有一个网站托管在两个服务器。该网站是基于SSL的。我希望使用本地Opsview监视每个服务器的网站(加载主页面并查找特定字符串)。这意味着我需要访问Opsview的主机文件，并添加"domain.com 10.10.10.33“，并每次更改它以匹配正确的服务器。我显然不能编写这个脚本，因为结果很可能在检查过程中出现偏差。是否有某种类型的Linux爬虫能够获取IP地址、域名并将它们结合在一起？我试过卷曲--代理和wget -头球，但都没有用。

浏览 0提问于2014-09-10得票数 1

回答已采纳