爬虫爬视频老司机_老司机视频福利直播_日本vr资源视频老司机 - 腾讯云开发者社区

、

我正在寻找一些健壮的，良好记录的PHP网络爬虫脚本。也许是Java项目的一个port - 我正在寻找免费和非免费的版本。

浏览 2提问于2011-01-30得票数 9

回答已采纳

4回答

web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少

、

是否存在一些标准的持续时间，爬虫必须在重复命中同一服务器之间等待，以避免使服务器负担过重。如果没有，任何建议是什么可以是一个良好的等待时间爬虫被认为是礼貌的。这个值在不同的服务器上是否也不同...如果是这样的话，如何确定呢？

浏览 0提问于2009-04-28得票数 7

1回答

如何在我的CF模板中设置胶水爬行器RecrawlPolicy

、、

我希望将glue爬虫程序设置为仅爬行s3存储桶中的新文件夹。根据文档，看起来我想将RecrawlBehavior设置为CRAWL_NEW_FOLDERS_ONLY。但是我找不到任何关于如何在CloudFormation模板中做到这一点的指导。这现在是我的爬虫程序的配置属性，但是我对RecrawlBehavior的使用是无效的： Configuration: "{\"Version\":1.0,\"RecrawlBehavior\":\"CRAWL_NEW_FOLDERS_ONLY\",\"CrawlerOutput\"

浏览 59提问于2020-11-07得票数 2

回答已采纳

1回答

Google Search Appliance索引数据库中的内容

、

而不是使用google搜索设备爬虫来索引内容，而是使用对sql服务器数据库的查询。查询运行得很好，但我认为所有这些注册表现在都属于默认集合( Google Search Appliance的完整索引)。您知道如何仅使用查询的数据创建新的集合吗？提前谢谢。诚挚的问候。何塞

浏览 0提问于2010-02-09得票数 1

回答已采纳

1回答

怎样在不使用远程桌面的情况下就能查看储存在腾讯云服务器上面的文件（不是网盘）？

、、、、

在服务器上部署了爬虫，想在不使用远程桌面的情况下直接就能查看服务器硬盘上爬虫爬取到的最新数据，想问一下该如何实现？

浏览 336提问于2020-04-16

1回答

sharepoint 2007搜索爬网

我的问题是:我有sharepoint 2007 web应用程序和windows server 2008操作系统。我在SharePoint2007中做搜索，它工作得很好。最近我添加了一个新的网站页面，但它没有出现在搜索结果中。我也在爬虫日志中查找了它，但我没有找到页面的url。新信息当我切换到windows身份验证时，一切都很好，页面是在搜索process.but中找到的，切换回表单身份验证不会使网页出现在搜索结果中。我的问题是:如何让新页面出现在搜索结果中？

浏览 1提问于2013-01-31得票数 0

1回答

分布式系统中的任务分配

、

我想抓取网站和写入输出到Solr与我的应用程序。我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。我的问题是:当一个爬虫想要爬一个网站，其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信？

浏览 0提问于2017-06-01得票数 2

2回答

访问通过web crawler存储的.lck和jdb文件

、、、

我目前使用作为我的网络爬虫的选择，我试图自学网络爬虫是如何工作的。我已经开始爬行了，我希望它能在下面的根目录(/ crawlStorageFolder / crawl /crawlStorageFolder)中快速返回爬行过的数据 public class Controller { public static void main(String[] args) throws Exception { /* * crawlStorageFolder is a folder where intermediate crawl data is

浏览 1提问于2012-09-23得票数 0

1回答

从论坛中抓取数据

、、

我对Scrapy很陌生。我想爬所有的帖子从一个论坛，和最新的那些新的帖子。有一些问题我想弄清楚。 1.如何确保爬虫不会爬行两次？ 2.如果有某种机制可避免两次爬柱。即使我重新启动爬行器，这个机制也能工作吗？ 3.爬虫会继续自动爬行新职位吗？ 4.我需要在这个项目中使用什么db / plugin？以下是蜘蛛类的初始化 name = "forum" allowed_domains = ["forum.com"] start_urls = ( 'http://s7.forum.com/posts.aspx',

浏览 6提问于2014-12-01得票数 1

回答已采纳

1回答

我应该使用哪个用户代理？

、、

我已经建立了一个网络爬虫，应该爬行我的客户网站每晚。我不希望我的请求出现在他们的Google分析中，那么我如何自动确保这一点？据我所知，我是通过用户代理指示请求来自爬虫的。那么，默认情况下，我应该使用哪个用户代理字符串来获得过滤掉我的请求的分析(这样客户就不需要从他们的报告中过滤掉请求)

浏览 2提问于2011-12-20得票数 1

2回答

单击提交按钮时在后台运行PHP脚本，无需重新加载页面

我需要运行一个php脚本(网站爬虫)上提交按钮点击，而不是页面重新加载。后台脚本运行后，应出现确认/警报弹出窗口，表明站点爬网程序已结束。有什么想法吗？

浏览 0提问于2012-04-17得票数 0

1回答

Python-Selenium爬虫冻结，特别是在无头模式下(不可复制的bug)

、、、、

我构建了一个爬虫，它获取用户输入的产品列表的产品信息。有时，爬虫会结冰，特别是如果产品列表很长，如果爬虫在无头模式下运行的话。这个bug似乎是随机的，也是不可复制的，这让我认为它是由被爬行的网站的资源利用引起的。因为这是一个不可复制的错误，我不认为我能修复它，但有没有办法检测爬虫已经冻结，然后再试一次？下面是关于爬虫和bug的一些信息：爬虫是使用Selenium和Python构建的。这个错误发生在不同的网站和产品上。该错误发生在“正常”模式，但更多发生在无头模式。谢谢! 费利佩

浏览 2提问于2019-05-21得票数 1

1回答

用Java在分布式体系结构上实现Web爬虫

、、、

朋友们，我用Java实现了一个多线程的网络爬虫。为了使它更高效，我想将其转换为分布式架构，即在3台机器上。据我所知，主从架构是最好的。谁能提供一些见解，说明哪种体系结构是最好的，以及我如何用Java实现它？

浏览 0提问于2013-02-26得票数 0

1回答

TYPO3爬虫程序一直在加载，直到出现内部服务器错误500

、

我在多个TYPO3实例上配置了crawler (版本5.1.3) (配置和TYPO3版本7.6.20始终相同)。有时它会工作，有时我会遇到这样的问题：当所有的都做好后，我想开始爬网-->信息-->网站爬虫-->开始爬行。当我在页面树中选择一个页面并点击时：然后它正在加载10 - 15分钟，我得到一个服务器错误(500)。这使得不可能使用爬网程序来抓取页面。提前谢谢。

浏览 6提问于2017-08-11得票数 0

回答已采纳

1回答

映射Open search服务器中的值

、

我有一个数据库的一些数据，如网址，ip，国家，州等。我需要抓取url并将值映射到url。假设我有一个url 和美国国家，我需要用抓取的数据来映射这个国家。我尝试了数据库爬虫，它是非常慢的.Because我有500万的网址。是否有其他选项可以将数据库值与open search服务器搜索的数据进行映射。？？提前谢谢。

浏览 3提问于2012-12-22得票数 0

3回答

Matrox G400需要驱动程序

、、

我需要一个Matrox G400的Ubuntu11.04驱动程序。我把视频卡放进去，屏幕上什么也没显示出来，所以我想Ubuntu11.04没有任何类型的驱动程序。所以我必须先用我的旧卡装载司机吗?如果是的话，我该怎么做？

浏览 0提问于2011-05-25得票数 3

1回答

如何限制来自同一个IP的多个请求？(Centos + APACHE)

、、、

我像数据库网站一样运行wiki。有些人经常爬(刮)我的网站数据。所以我想阻止这些爬虫。是否有一个脚本来阻止一定数量的来自同一个IP地址的请求？

浏览 14提问于2021-12-12得票数 0

1回答

从Flask路由开始scrapy

、、

我想建立一个爬虫，需要抓取网页的网址，并将结果返回给一个网页。现在，我从终端启动scrapy并将响应存储在一个文件中。当一些输入发布到Flask、处理并返回响应时，我如何启动爬虫？

浏览 1提问于2015-07-24得票数 5

2回答

IOFramebuffer无法访问macOS 10.13中的VRAM帧缓冲区

、、

我正在为MacOS开发一个扩展的图形驱动程序，并使用IOFrameBuffer类发布一个线性帧缓冲设备。在我的驱动程序中，我们使用getVRAMRange()返回帧缓冲设备的整个内存窗口的视频ram地址信息。问题是:驱动程序可以很好地在MacOS 10.12上工作，但是一旦升级到MacOS 10.13 High，我就不能再访问视频内存数据了。你对这个问题有什么建议吗？非常感谢！另外，我也不明白为什么司机能在安全模式下工作得很好？

浏览 8提问于2017-10-24得票数 1

回答已采纳

1回答

网络爬虫文件扩展名处理

、、

我正在用nodejs开发一个网络爬虫。我在网站爬行体中创建了一个独特的urls列表。但也有一些扩展像jpg，mp3，mpeg .我想避免爬那些有扩展的人。有什么简单的方法吗？

浏览 3提问于2015-10-14得票数 0

回答已采纳

1回答

facebook (不同？)来自like and share的用户代理爬虫？

、、、

我现在在一个网站上工作。整个网站都是受保护的，因此只有登录的用户才能访问此网站(只要beta测试运行->的时间有限)。我们有两种不同类型的分享在我们的网站上。一个是简单的“喜欢”按钮，另一个只是使用：{URL} 为了给facebook爬虫提供访问权限，我建立了这样的保护： if(wUserCur::isLoggedIn() || in_array($currentPath, $allowedLogins) || strstr($_SERVER['HTTP_USER_AGENT'], 'facebookexternalhit')): // do n

浏览 2提问于2011-09-21得票数 3

0回答

基于Python的股票数据爬取？

、、、

使用Python语言编写爬虫程序，使用正则表达式将指定日期时段内的全部上市公司股票数据爬取下来，并按照股票代码保存到相应的Excel文件中。有偿联系微信：15527440125

浏览 201提问于2020-05-23

2回答

此URL的SharePoint 2007 -Content已被服务器排除，因为没有索引属性

、、、

有没有人遇到过这样的错误:搜索爬虫忽略了一个aspx页面？对于这些页面，我收到以下警告消息：“此URL的内容已被服务器排除，因为没有索引属性”。任何帮助都将不胜感激。谢谢。

浏览 0提问于2009-05-19得票数 1

回答已采纳

1回答

打开搜索服务器设置超时

、、、

我在OpenSearchServer中使用web爬虫，在爬行时，它在Extracting url list操作期间被卡住了。在完成会话的时候，它也会被卡住。有没有办法设置一个时间限制或超时，以便在某些东西运行时间过长时中止？

浏览 5提问于2015-10-08得票数 0

1回答

将robots.txt放在何处以防止爬行

、

我使用robots.txt文件来防止爬虫抓取特定的页面。当我想要阻止在/folder/myfolder/中爬行myfolder中的所有内容时，我可以将robots.txt放在/folder/myfolder/robots.txt中并写道： User-agent: * Disallow: / 或者我必须将robots.txt放在/robots.txt中并设置： User-agent: * Disallow: /folder/myfolder/ 谁知道呢？

浏览 3提问于2016-12-03得票数 1

2回答

大神有没有研究过美团的_token生成方法？

、、

如题，我最近在做一个数据分析，想要用到美团的美食信息，于是就想用python爬取美团的数据，但是在构造爬虫的时候发现美团有一个_token参数，百思不得其解，还请大神指教

浏览 2239提问于2018-09-12

1回答

有没有办法继续Nutch Crawl任务，它已经被意外杀死？

、、、

我有一个Nutch爬行任务，它已经运行了一整天，直到我错误地杀死了这个进程。我不想重新抓取种子(花费很多时间)，所以我想知道是否有一种方法或一些Nutch Crawler参数，可以让爬虫忽略那些已经被抓取的urls。非常感谢！

浏览 2提问于2012-04-07得票数 0

回答已采纳

2回答

在目标web服务器上使用Php/Querypath crawler的已知或预期影响是什么，以及如何将其保持在最低限度？

、、、

我正在构建一个php+querypath爬虫来构建一个想法的原型。我担心一旦我运行它，目标站点可能会以某种方式受到影响，因为它有大量我想要抓取的相关页面--目前有1361个页面。有什么建议可以将对目标站点的影响降到最低？

浏览 2提问于2012-03-28得票数 0

回答已采纳

1回答

我需要在SharePoint 2013中基于超链接url进行搜索

、、

我有视频作为链接嵌入在Sharepoint中，这些视频不是SharePoint场的一部分。我需要搜索这些URL并替换为不同的URL。是否缺少任何搜索配置。

浏览 4提问于2019-10-03得票数 0

2回答

当我使用自己的程序爬行站点时，我应该使用什么用户代理

、、

我用node.js做了爬虫。我想爬一些网站的基础上，每小时。我试着找出我应该使用的用户代理，但是我只得到了像谷歌机器人和必应机器人这样的结果。我不知道我能不能利用这些用户代理。你能告诉我我应该使用哪个用户代理吗？

浏览 1提问于2018-09-10得票数 1

回答已采纳

3回答

网络爬虫的更新间隔是多少？

、

我目前正在做我自己的网络爬虫，我想知道… 网络爬虫再次访问相同站点的合适间隔是多少？你应该每天重温一次吗？每小时一次？我真的不know...has任何人在这件事上的一些经验？也许有人能给我指个方向？

浏览 0提问于2010-07-10得票数 1

回答已采纳

2回答

关闭浏览器或单击中止时，脚本不会停止

、、

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。有时因为脚本加载了很长时间，我在浏览器中遇到超时，但在后台，我继续说。我在我的数据库里看到了。我能防止这种情况吗？..现在，如果我停止webserver，这是可能的。谢谢你，并致以最良好的问候。

浏览 0提问于2010-01-22得票数 0

1回答

使用Apify抓取多个页面

、

可以使用带有伪URL的Apify抓取多个页面吗？当人们问同样的问题时，答案大多指向伪URL，如果有可能或不可能这样做，并不会直接解决问题。如果我在运行爬虫的时候不知道伪URL，并且我从一个页面上抓取了10个链接-然后想要抓取这10个链接，那怎么做呢？ https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages

浏览 15提问于2019-03-19得票数 0

1回答

Nutch即时查询

、

我是纳奇和索尔的新手。相对来说，Solr比Nutch要新得多:) 在过去的两周里，我一直在使用nutch，我想知道我是否可以在我的nutch爬虫上进行查询或搜索(在它完成之前)。我之所以这样问，是因为我正在抓取的网站真的很大，抓取需要3-4天才能完成。我想在nutch爬虫还在抓取URL的时候分析一些快速结果。有人建议我，Solr会让它成为可能。为此，我遵循了中的步骤。我看到Solr搜索中只显示了注入的URL。我知道我做了一件非常愚蠢的事情，爬行从来没有发生过，我觉得我遗漏了一些信息。但我做了链接中提到的所有步骤。我认为在这个过程中的某个地方应该会发生爬行，而这是遗漏的。我只是想看看是否有人

浏览 0提问于2011-02-09得票数 0

回答已采纳

2回答

使用websocket在烧瓶中排队

、、、、

我正在为一个项目使用Flask，Gevent和scrapy。基本的想法是，你输入一个url，它就会以输入作为参数启动一个爬虫进程。目前，它似乎可以很好地处理通过websocket传输的输出。我很好奇什么是最好的方式来处理多个爬虫同时运行，所以如果两个人在同一时间输入一个网址。我认为最好的方法是使用队列系统，理想情况下，我只希望同时运行数量可控的爬虫。有没有关于如何使用我已经在使用的库的建议？或者可能会提出一种不同的方法？

浏览 1提问于2012-12-16得票数 0

4回答

降低网站爬行速度

、、、

有没有办法迫使爬虫放慢对网站的爬行速度？可以放在headers或robots.txt中的内容吗？我想我记得我读过一些关于这是可能的东西，但现在找不到任何东西。

浏览 2提问于2010-01-30得票数 6

回答已采纳

1回答

如何通过nutch爬网脚本设置topN

、、

我正试图抓取一个url是的网页，它有2000多个输出url，但当我查询solr时，它显示的文档不到50个，而我期望显示大约2000个文档。我使用以下查询： ./crawl urls TestCrawl http://localhost:8983/solr/ -depth 2 -topN 3000 控制台输出为： Injector: starting at 2014-12-08 21:36:15 Injector: crawlDb: TestCrawl/crawldb Injector: urlDir: urls Injector: Converting injected u

浏览 1提问于2014-12-09得票数 0

1回答

如何在scrapy中访问settings.py中的爬行器名称

、

我想要将爬虫的所有下载图像保存在一个特定的文件夹中，这样我就可以在同一个项目中同时运行多个爬虫，而不会在一个文件夹中有多个爬虫的所有图像。 img文件夹目标在设置中定义： project_dir = os.path.dirname(__file__)+'/../' #<-- absolute dir the script is in IMAGES_STORE = project_dir+"images" 我的爬行器在spidername.py中有一个类似这样的类： class GetbidSpider(CrawlSpider): name = &

浏览 27提问于2019-02-14得票数 0

回答已采纳

1回答

当链接重定向到ajax链接时，google crawler会使用ajax _escaped_fragment_格式吗？

、、、、

我知道我可以反其道而行之，让server.com/#!/mystuff是ajax可爬行的，但我想知道是否可以反其道而行之。如果我有server.com/mystuff，然后发送一个重定向到server.com/#!/mystuff，谷歌爬虫是否会通过它的重命名过程运行该url，以便它跟随重定向到server.com/?escaped_fragment=mystuff

浏览 1提问于2014-03-20得票数 0

5回答

防止bot/crawler抓取和缓存html页面

、

有没有办法防止网络爬虫抓取和缓存我的面向公众的web应用程序网站？

浏览 1提问于2010-11-17得票数 1

回答已采纳

2回答

爬虫被卡在Drupal中的强制性agecheck页面上。

、、、

我们在drupal中建立了一个大型社区网站，在您访问该网站的内容之前，该网站有一个强制性的agecheck。它检查一个cookie是否存在，如果没有，您将被重定向到agecheck页面。现在我们相信爬虫者会被困在这个部分，他们会被重定向到阿格切克，永远不会爬上完整的网站。以前有人吃过这个吗？处理这种事情最好的方法是什么？砂光机编辑很抱歉，现在我要说的是，爬虫的一个问题是，当社区中的某个人在他的脸书上贴了什么东西时，facebook会把这个页面爬回来来获取图片和描述(这些图片和描述是在元标签中指定的)，但是facebook也会被重定向到agecheck页面。如果我添加facebook

浏览 18提问于2009-08-19得票数 0

回答已采纳

2回答

如何让crawler4j更快地从页面下载所有链接？

、

我所做的是： crawl 获取页面的所有链接，将它们放入列表启动一个新的爬虫程序，它访问列表中的每个链接下载它们一定有更快的方法，当我访问页面时，我可以直接下载链接？谢谢！

浏览 3提问于2012-01-10得票数 6

回答已采纳

1回答

在aws中扩展无服务器网络爬虫和搜索引擎

、、、

https://github.com/aws-samples/aws-step-functions-kendra-web-crawler-search-engine 我指的是上面的链接，并在特定的网站上实现网络爬行。我已经使用命令deploy --profile --with-kendra部署了堆栈但是当我使用crawl --profile --name lambda--docs --base-url https://docs.aws.amazon.com/ --start-path /lambda --关键字lambda//dg时出现错误：'/crawl‘未被识别为内部或

浏览 22提问于2021-04-14得票数 0

1回答

改进Crawler4j-Crawler效率

、、

我正在使用Crawler4j爬虫来爬行一些domains.Now，我想提高爬虫的效率，我希望我的爬虫能使用我的全部带宽，并且在给定的时间内尽可能多的爬行period.For，我正在采取以下设置：- 我增加了号码。(使用此函数ContentCrawler('classfilename', 10 );) 我已经将礼貌延迟减少到50 ms (使用Crawlconfig.setpolitenessdelay(50);) 我给爬行深度作为2(使用Crawlconfig.setMaxDepthOfCrawling(2)) 现在我想知道的是：- ( 1)这种设置有什么副作

浏览 3提问于2014-09-29得票数 1

回答已采纳

1回答

Scrapy -遇到重复项目时停止crawler

、、、

有很多网站我必须硬编码页面跟随(爬行项目后增加页码)，其中一些网站在最后一页后返回到第一页。例如，如果一个网站有25页的项目，向第26页发送请求会得到first page的响应。在这一点上，Scrapy的复制过滤器工作得很好，不会抓取项目，但爬虫会继续运行。当重复过滤器像这样被触发时，有没有办法停止抓取进程？我不想像这样硬编码页码，因为它可能会随着时间的推移而改变。 if self.page < 25: yield scrapy.Request(...)

浏览 0提问于2019-09-29得票数 1

1回答

Python端字符串计数器

、、、

我回到了Python中的一个旧项目，但我似乎忘记了我是如何提取数据的，如果有人能为我指出正确的方向和文档来实现这一点，我将不胜感激。我实现了一个web爬虫，它通过扫描我的HTML代码从html页面中提取信息。使用我使用过的BeautifulSoup和urllib2库扫描mywebsite.com/product=1的URL。但是我想让mywebsite.com增加到最多10。如何提取、读取和替换url的末尾并替换它呢？我注意到其他人实现了urlparse库来替换域main，但是它与我的方法不一样。 > mywebsite.com/product=1 > mywebsit

浏览 2提问于2017-03-03得票数 0

回答已采纳

2回答

如何使用Python在需要Google帐户登录的网站上进行web爬行？

、

我是Python的新手，我想使用Python来抓取几个需要Google帐号登录的网站。例如，我想爬一个网站xxx.appspot.com，我需要登录我的谷歌帐户访问它，因为这个数据库需要验证，我是授权人员。当我做这样的事情： content=urllib.urlopen(target_url).read() 当然，我得到的“内容”只是一个登录页面。如何实现代码，以便爬虫在实际爬行之前可以在Google帐户中签名。

浏览 1提问于2013-12-18得票数 2

回答已采纳

2回答

Scrapy中的爬行顺序

、

我用scrapy写了一个基本的CrawlSpider，但是我想知道urls被抓取的顺序是什么？我希望爬虫应该爬行所有的链接在开始网址页面，然后移动到其他网址，这似乎不是顺序。我该怎么做呢？

浏览 2提问于2011-12-05得票数 2

回答已采纳

1回答

同一页面上的多个google +按钮

、

有没有可能在同一页上有多个google +1按钮，而不用不同的href来引用它们？我不能使用这个解决方案： <g:plusone href="the_first_url" size="small" count="false"></g:plusone> <g:plusone href="the_second_url" size="small" count="false"></g:plusone> 因为根本没有其他网站，我只是想有一个不同的标题，描述和图

浏览 2提问于2014-02-12得票数 0

1回答