腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
2
回答
基于PHP的Web爬虫或基于JAVA的Web爬虫
、
、
我对基于PHP的网络爬虫有些怀疑,它能像基于java线程的爬虫一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
如何阻止Web爬虫下载文件
、
、
是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)? 我应该创建一个PHP脚本,使用cookie跟踪访问者,特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。 有可能阻止网络爬虫吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web爬虫上? 我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web爬虫呢? 顺便说一下,我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。
浏览 0
提问于2013-07-27
得票数 1
2
回答
在网站和独立应用程序中使用Django框架
、
我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
2
回答
PHP与
、
、
我计划制作的网络爬虫,可以抓取200+领域,哪一种语言将适合它。我非常熟悉PHP,但我是Python的业余爱好者。
浏览 2
提问于2014-11-21
得票数 0
回答已采纳
1
回答
如何使用php获取HTML页面的标题?
、
、
如何使用php获取HTML页面的标题?我已经做了一个php网络爬虫,我想在我的爬虫中实现这一功能,这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。
浏览 0
提问于2011-02-07
得票数 3
回答已采纳
1
回答
vuejs预录制php动态内容
、
、
、
我有一个关于预先录制用php构建的vue应用程序的问题( laravel或纯php,没关系),我的问题是,如何使用动态内容进行预录制:例如:当我用vue和php创建博客以显示帖子时,我在vue应用程序中发出Ajax请求。谷歌机器人和其他网络爬虫将如何读取我的网站内容 提前感谢
浏览 1
提问于2019-09-17
得票数 0
回答已采纳
5
回答
Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)?
、
有人知道谷歌机器人是用哪种编程语言编写的吗? 或者,更普遍的是,高效的网络爬虫是用哪种语言编写的? 我见过很多Java语言,但在我看来,它不是最适合开发网络爬虫的语言,因为它产生了太多的开销(尝试使用Heritrix网络爬虫,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
7
回答
哪些语言适合编写网络爬虫?
、
、
、
我有丰富的PHP经验,尽管我意识到PHP可能不是大型网络爬虫的最佳语言,因为进程不能无限运行。人们推荐的语言是什么?
浏览 1
提问于2010-09-08
得票数 3
回答已采纳
1
回答
根据是否已经看到的过滤链接
、
、
我正在构建一个简单的网络爬虫,并试图根据链接是否以前被看到过来过滤链接。问题是一个链接可能是相同的,但有一个正斜杠,参数。我也想把邮件过滤掉,有没有什么简单明了的办法呢?我目前在pHp工作。 编辑:我在看完这个后用Net_URL2.php对网址进行了标准化:
浏览 1
提问于2013-07-16
得票数 1
回答已采纳
1
回答
如何使用网络爬虫从flv文件中提取内容?
、
、
、
我的要求是从flv文件中提取文本和音频。请建议我如何使用任何网络爬虫来实现这一点。如果这是不可能与网络爬虫,请建议我任何其他工具。 谢谢你
浏览 0
提问于2013-05-14
得票数 0
回答已采纳
3
回答
在HBase中使用PHP和Mapreduce添加/查看/删除数据?
、
、
、
嗨,朋友们 我正在生成一个网络爬虫,我想知道一些关于它的事情, 1)我可以使用Map reduce从网络获取数据吗 2)是否可以将拉取的数据保存到HBase? 3)我可以用PHP写一个从HBase中获取数据的应用吗?如果可以,你能给我一个代码片段吗?我如何使用PHP从HBase中添加/查看/删除数据?
浏览 1
提问于2010-11-14
得票数 1
回答已采纳
1
回答
是什么阻碍了我的PHP脚本?
、
、
、
我们有一个PHP爬虫运行在我们的web服务器上。crawler运行时,没有cpu、内存或网络带宽峰值。一切都很正常。但是我们的网站(也是PHP),托管在同一台服务器上,停止响应。基本上,爬虫会阻止任何其他php脚本运行。 编辑: ** fsockopen用于将文件下载到crawler!**
浏览 3
提问于2010-05-11
得票数 0
2
回答
简单的网络爬虫速度问题
、
我用PHP创建了一个非常简单的网络爬虫,用来抓取一些足球网站的比赛结果。 但是当我抓取一个网站时,抓取它大约需要0.5 -1秒。因此,如果我有很多网址要抓取,这将需要大量的时间。 这是我抓取网站的代码起点: $doc = new DOMDocument(); $doc->loadHTMLFile("http://resultater.dai-sport.dk/tms/Turneringer-og-resultater/Pulje-Stilling.aspx?PuljeId=229"); $xpath = new DOMXpath($doc); 我已经自己创建了爬虫,所以也
浏览 2
提问于2015-04-20
得票数 3
2
回答
网络爬虫的最佳数据库设计
、
、
、
许多数据库系统适合与网络爬虫一起工作,但是有没有专门为网络爬虫开发的数据库系统(在.net中)。 我的经验告诉我,网络爬虫有许多部分和服务,每个部分都需要一些特定的功能。例如,要缓存网页,我们需要一些东西,比如sql server的。或者检查db中是否已经存在URL,最好的选择是。 事实上,我有两个问题 1)与网络爬虫一起工作的最好的数据库系统是什么? 2)是否有涵盖所有功能的数据库系统!
浏览 2
提问于2011-07-05
得票数 1
1
回答
网页爬行技术的信息
、
我正在构建一个小型的网络爬虫,我想知道是否有人对实际的实现有一些有趣的信息(只是爬行,没有搜索,没有排名,没有分类,只是爬行,亲吻:)。 为了记录在案,我已经有了O‘’Reilly“蜘蛛黑客”和“无淀粉出版社”的“网络机器人、蜘蛛和屏幕刮刀”。这些书很好,但是它们倾向于保持简单,对于缩放、存储数据、并行的东西和其他更高级的主题不详细。当然,我可以检查现有的开源爬虫的代码,但是这会发生在另一个边缘(C++爬虫看起来很复杂.)。我正在寻找一些有趣的信息。 欢迎任何帮助,谢谢。
浏览 5
提问于2009-05-18
得票数 2
1
回答
如何有效地运行python web爬虫
、
、
、
我有一个python爬虫,它获取信息并将其放入SQL中。现在我也有了php页面,它从SQL读取这个信息,并表示它。问题是:为了让爬虫程序工作,我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫?还是我必须在我的电脑上运行?
浏览 1
提问于2015-12-08
得票数 0
回答已采纳
1
回答
如何在Google上爬行
、
、
、
、
我的要求是通过在网上搜索给定的关键字来报告给定的关键字。 我的计划是我的网络爬虫 在谷歌、必应或雅虎上搜索关键词 打开谷歌、必应或雅虎返回的网页/链接 使用这些页面制作报告。 因为我想制定一条遵守网络爬虫的规则。所以当我看到这些网站的robots.txt时,我就知道搜索引擎已经屏蔽了网页爬虫来搜索关键字,比如 google.com/robots.txt User-agent: * Disallow: /search 我知道,如果我试图在搜索引擎上搜索关键字,我的ip可能会被封锁。 我的新计划我的网络爬虫会 在谷歌、必应或雅虎上搜索关键词(每天最多搜索2-3次) 打开
浏览 3
提问于2017-09-15
得票数 0
3
回答
具有线程支持的python web爬虫
、
这些天我做了一些网络爬虫脚本,但其中一个问题是我的互联网非常慢。所以我在想,是否可以通过使用mechanize或urllib之类的方法来实现多线程的网络爬虫。如果任何人有经验,分享信息非常感谢。我在谷歌上找过了,但没有找到多少有用的信息。提前感谢
浏览 3
提问于2009-12-05
得票数 2
回答已采纳
1
回答
将.htaccess更改为工作?_escaped_fragment_= URL
、
、
我有一个阿贾克斯网络应用程序,我需要谷歌索引。所以我使用了hashbang,并且我需要将?_escaped_fragment_=传递给一个单独的爬虫PHP。 目前 DirectoryIndex index.php RewriteEngine on RewriteCond %{QUERY_STRING} ^_escaped_fragment_=(.*)$ RewriteRule ^$ crawler.php?cat=%1 [QSA,L] 重定向到像这样的url /crawler.php/m/GkQs6Mw4W8。如何将爬虫重定向到这样的URL, crawler.php?cat=m&
浏览 0
提问于2014-11-10
得票数 0
3
回答
(网络爬虫)如何从新闻网站获取新闻文章的文本
、
、
、
、
我要从一个新闻网站上得到我必须得到的1k网站内容的文本。 链接位于下面: 这个网站发布每一个最新的新闻,新的url是在id中添加1。 readnews.php?id=16727 所以,下一个网址是 readnews.php?id=16728 问题是我想把16000到17000年间的课文刮一下。 如何在Java中实现 汤汁?还是其他网络爬虫? 谢谢
浏览 3
提问于2016-06-24
得票数 0
1
回答
用AJAX加载PHP页面是不是很好的做法?
、
、
、
我有一个PHP网站,其中有四到五个其他的PHP文件,我使用jQuery AJAX加载到主index.php上。这对于SEO和网络爬虫来说是不是很好的做法呢?
浏览 2
提问于2012-12-07
得票数 1
回答已采纳
5
回答
有哪些好的基于Ruby的网络爬虫?
、
我正在考虑写我自己的,但我想知道是否有好的网络爬虫在那里是用Ruby编写的。 除了一个成熟的网络爬虫,任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了,但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。
浏览 2
提问于2011-02-13
得票数 21
回答已采纳
2
回答
我需要为特定的用户代理编写一个网络爬虫
、
我需要编写一个网络爬虫,并希望能够爬行使用一个已知的用户代理。例如,我希望我的爬虫程序充当iphone来抓取网站的移动站点,然后使用Mozilla PC代理再次抓取,等等。 这样,我将能够抓取每一个“类型”的网站(移动和个人电脑)。然而,我也希望能够设置我的爬虫的用户代理,这样网站管理员也可以在他们的统计数据中看到访问整个网站的是一个爬虫,而不是真正的用户。 所以我的问题是,你们知道如何在PHP中同时设置一个移动代理和一个爬虫代理吗?这有可能吗?
浏览 1
提问于2011-05-14
得票数 3
回答已采纳
1
回答
使用多线程改进网络爬虫/爬虫
、
我已经开始学习网络爬虫,在一篇文章的帮助下,我构建了下面这个简单的爬虫。 它建议使用多线程来改进和提高网络爬虫的速度。 我想知道是否有人可以帮助我学习更多关于多线程的知识,甚至可以将其应用到下面的爬虫中。 此外,如果您有任何其他建议或改进,请随时分享这个爬虫。 代码如下: error_reporting( E_ERROR ); define( "CRAWL_LIMIT_PER_DOMAIN", 50 ); $domains = array(); $urls = array(); function crawl( $url ) { global $domains,
浏览 3
提问于2013-03-10
得票数 0
回答已采纳
1
回答
Crawler将参数从url添加到链接
、
、
、
、
我尝试了两种不同的网络爬虫(Sistrix和)。这两个爬虫都会报告有关/和/?katID=12等URL的重复内容的错误。 事实证明,如果爬虫调用url /projekte/index.php?katID=12,它会找到<a href="/">Home</a>并将其作为链接添加到/?katID=12。看起来url ?katID=12中的参数被添加到页面上没有参数的每个链接中。 如果我使用浏览器或wget,我会看到想要的到/的简单html链接。 我做错什么了吗?服务器配置? 这是爬虫中的bug还是一个特性?
浏览 5
提问于2013-04-02
得票数 2
回答已采纳
1
回答
高性能网络蜘蛛的开发
、
、
、
我想开发一个WebSpider守护进程(PHP/C/C++)你知道关于如何开发高性能网络爬虫的好参考资料吗?
浏览 0
提问于2011-10-17
得票数 0
6
回答
Tor网络爬虫
、
、
、
、
好的,这就是我需要的。我有一个基于PHP的网络爬虫。它可以在这里访问:现在,我的问题是我的爬虫需要在SOCKS端口9050上抓取页面。问题是,我必须通过Tor隧道它的连接,这样它才能解析.onion域,这就是我要索引的。(仅以.onion结尾。)我使用php crawl.php从命令行调用此脚本,并添加适当的参数来抓取页面。我的想法是:有没有办法强迫它使用Tor?或者我可以强制我的整个机器通过Tor进行隧道操作,以及如何实现?(比如强制所有流量通过127.0.0.1:9050)也许如果我设置了全局代理设置,php会尊重它们吗? 如果我的任何解决方案都有效,我该怎么做呢?(请按步骤说明,我是菜鸟
浏览 7
提问于2012-02-11
得票数 10
2
回答
如何限制cURL使用的并发连接
、
、
我用PHP (和cURL)做了一个简单的网络爬虫。它粗略地解析了60000个html页面,并检索出产品信息(它是intranet上的一个工具)。 我主要关心的是并发连接。我想限制连接的数量,所以无论发生什么,爬虫永远不会使用超过15个并发连接。 每当达到IP的25个并发连接的限制时,服务器就会阻塞IP,由于某些原因,我无法在服务器端更改该限制,因此我必须找到一种方法,使我的脚本不会使用超过X个并发连接。 这个是可能的吗? 或者也许我应该用另一种语言重写整个东西? 谢谢,感谢您的帮助!
浏览 2
提问于2010-02-10
得票数 7
回答已采纳
3
回答
如何在Django中处理网络爬虫?
、
由于网络爬虫在没有任何请求数据的情况下访问了我的网站的某些部分,我收到了很多发送到我的电子邮件中的错误,我想知道在Django中处理网络爬虫的最好方法是什么?当我遇到一个空的QueryDict时,我应该发出一个重定向吗?
浏览 0
提问于2010-12-19
得票数 2
回答已采纳
1
回答
支持windows增量爬行的Web爬虫
、
、
、
、
我需要一个开源的web爬虫在java开发的增量爬行支持。 Web爬虫应该易于定制,并与solr或elasticsearch集成。 它应该是一个积极的,正在进一步发展,更多的特点。 孔径是一个很好的爬虫,它有我提到的所有功能,但它不是一个活动的爬虫,由于许可(如果我使用它的商业目的),他们的依赖性,我忽略了。 Nutch -一个网络爬虫,有更多的hadoop支持功能。但是我浏览了很多网站和教程,没有合适的文档,api可以在windows中通过编程方式定制它。我可以在eclipse中编辑代码,但它在运行map时会导致许多错误,减少作业。nutch没有java来实现类似孔径的功能
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
7
回答
有哪些PHP网络爬虫库可用?
、
我正在寻找一些健壮的,良好记录的PHP网络爬虫脚本。也许是Java项目的一个port - 我正在寻找免费和非免费的版本。
浏览 2
提问于2011-01-30
得票数 9
回答已采纳
2
回答
Lucene爬虫(它需要建立lucene索引)
、
、
我正在寻找Apache Lucene网络爬虫写在java,如果可能的话,或在任何其他语言。爬虫必须使用lucene并创建有效的lucene索引和文档文件,因此这就是nutch被排除的原因。 有没有人知道这样的网络爬虫是否存在,如果答案是肯定的,我可以找到它。Tnx..。
浏览 0
提问于2009-10-16
得票数 1
回答已采纳
9
回答
在创建网络爬虫时,需要考虑哪些关键问题?
我今天刚开始考虑创建/定制一个网络爬虫,对网络爬虫/机器人礼仪知之甚少。我发现大部分关于礼仪的文章都显得过时和笨拙,所以我想从web开发人员社区获得一些最新的(和实用的)见解。 我想使用爬虫通过“网络”的一个超级简单的目的-“标记的网站XYZ满足条件ABC?” 这给我带来了很多问题,但我认为我首先需要回答的两个主要问题是: 从一开始就感觉有点“不确定”--这类事情可以接受吗? 爬虫应该采取什么具体的考虑来不让人心烦?
浏览 17
提问于2008-08-28
得票数 11
回答已采纳
1
回答
/和index.php.如何消除这个重复的页面问题?
、
在我的网站根目录中,我有一个index.php,当然还有其他的页面。问题是,当我用爬虫或站点地图爬虫等爬行我的网站时,它会报告两个重复的链接。 www.domain.com/ www.domain.com/index.php 如何强制告诉我的爬虫没有相同页面的两个实例?我是否使用301合并它们?一个规范?.htaccess重定向?等等,我该怎么解决这个问题?
浏览 0
提问于2014-09-12
得票数 0
回答已采纳
1
回答
如果某个字段值不是唯一的,则rabbitmq丢弃消息?
、
我在我的网络爬虫中使用了一个ampq队列-每个爬虫实例都将从队列中的消息中获得一个url,然后将它找到的url添加到队列中。 由于将有多个爬虫实例,每个实例都可能找到相同的url并将其添加到队列中。 在已知url的情况下,是否有内置的方式告诉rabbitmq删除消息,或者如果带有url的消息已经存在,则检查队列?
浏览 4
提问于2014-04-30
得票数 2
回答已采纳
3
回答
Cassandra、Hadoop Hive或MYSQL?
、
、
、
我正在开发一个网络爬虫,它对存储数据有好处吗?我在我的MySQL数据库中有1TB的过去6个月的数据,我需要索引它们,我需要尽快在我的搜索中输出数据,我认为,它将存储更多的数据,比如10Peta Byes,因为我的爬虫运行得很快,我需要快速获得读/写操作,我需要将其集成到我的PHP中
浏览 0
提问于2010-08-18
得票数 3
回答已采纳
6
回答
如何识别网络爬虫?
、
我怎样才能过滤掉网络爬虫等非人类的点击。 我使用maxmind.com向IP请求城市。这并不是很便宜,如果我必须支付所有的点击,包括网络爬虫,机器人等。
浏览 3
提问于2011-12-07
得票数 33
回答已采纳
2
回答
如何欺骗爬虫/扫描器,使其无法检测到网络技术?
、
我有一个PHP网站,我已经完成了所有的URL重写。使得PHP扩展被隐藏。但是不知何故,网络爬虫和安全扫描器/漏洞扫描器能够找到我的站点是用PHP开发的。 我如何避免这种情况,或者如何欺骗他们,使他们相信这个网站不是通过PHP开发的?
浏览 4
提问于2014-02-15
得票数 1
回答已采纳
1
回答
Web Crawler的功能
、
、
网络爬虫是否只从网页中返回提取的文本?例如,如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗?不管怎样,对于一个好的开源Java网络爬虫有什么建议呢? 谢谢!
浏览 2
提问于2011-06-26
得票数 0
回答已采纳
2
回答
在MYSQL中删除非常非常相似的行
、
在PHPMYAdmin中,我正在运行一个网络爬虫。网络爬虫偶尔会拾取相同的urls。在网络爬虫中,它已经索引了数千个链接,我不想要重复的链接。有没有办法在SQL中删除相似的行(唯一的区别是id字段)
浏览 1
提问于2012-08-17
得票数 0
1
回答
AWS Boto启动实例,部署Docker映像,运行和终止
、
、
、
我有一个网络爬虫,是一个码头形象。我想使用boto创建一个EC2实例,部署我的爬虫,运行这个爬虫,然后在它完成后终止这个实例。 我现在的想法是: 使用包含Docker的AWS启动新的EC2实例。 SSH在实例中使用类似Fabric的内容并安装Docker。 使用相同的SSH连接来运行我的命令来启动爬虫 使Web在完成时删除自己的实例。 以下是一些细节: 我真的需要使用像Fabric这样的工具来对我的实例进行SSH并运行命令吗? 如何选择当前运行脚本的实例?如果您愿意,可以使用self实例。 有更好的方法吗?
浏览 0
提问于2018-03-19
得票数 2
3
回答
用PHP解释JavaScript
、
、
、
、
我希望能够运行JavaScript并使用PHP获得结果,并且想知道是否有一个PHP库允许我解析它。我的第一个想法是使用node.js,但由于node.js可以访问套接字、文件和其他东西,我想我更愿意避免这样做。 的基本原理:--我正在用进行屏幕抓取,并且遇到了许多情况,其中的数据是由JavaScript在前端生成的,我想避免编写专门的过滤函数,以便在每个案例的基础上对JavaScript进行操作,因为这需要很多时间。更一般的情况是直接解析JavaScript。 否决:--我不知道这个问题有什么争议,现代的网络爬虫都知道,唯一的区别是它们往往不是用PHP编写的。1
浏览 6
提问于2010-12-02
得票数 15
回答已采纳
1
回答
带有简单动态内容"listener“的Perl webcrawler
、
我正在尝试用Perl做一个简单的网络爬虫,但是很多网站都有动态内容加载,例如,使用javascript函数: $(document).ready(function() { $("#blabla").load('blublu/bla.php'); }); 因此,我正在尝试调整我已经拥有的网络爬虫(获取HTML内容),以“等待”这些脚本加载,然后才获取整个(和完整)网站内容(HTML)。 到目前为止,我发现有人说这可以通过WWW::Mechanize,Mechanize::Mozilla,WWW::Mechanize::Firefox来实现。 问题是,我对
浏览 2
提问于2013-01-15
得票数 2
回答已采纳
1
回答
编写PHP脚本,打开网站页面并将页面内容存储在变量中
、
我一直在建立一个搜索引擎,但现在我需要一个网页爬虫,在PHP中,可以抓取我的网站的内容。 我不知道网络爬虫/蜘蛛是否是正确的词,但我希望并想知道是否有人能帮助我编写一个简单的PHP脚本,该脚本打开以.php或.html结尾的域中的所有页面,并将内容保存在页面中,并将其存储在变量中作为原始文本。每页一个变量。 如果有人知道一个好的开源脚本,或者可以帮助我编写一个,请分享或这样做-我将非常感谢所有和任何帮助。
浏览 2
提问于2013-03-07
得票数 2
回答已采纳
5
回答
file_get_contents对html输入不返回任何内容。
、
、
file_get_contents()在上返回正确的文件内容,而在上不返回正确的文件内容。 主要的区别是是一个php项目,而是html。 基本上,我正在php中构建一个网络爬虫。当我成功地爬过至少150+站点时,它并没有爬过那个特定的站点。
浏览 2
提问于2015-12-24
得票数 0
回答已采纳
2
回答
/*.php$在robots.txt中是什么意思?
我偶然发现一个在其robots.txt文件中使用以下内容的站点: User-agent: * Disallow: /*.php$ 那它是做什么的?它会阻止网络爬虫爬行以下网址吗? https://example.com/index.php https://example.com/index.php?page=Events&action=Upcoming 它也会阻塞子域吗? https://subdomain.example.com/index.php
浏览 5
提问于2015-06-04
得票数 1
回答已采纳
5
回答
Python中的多线程爬虫真的可以提高速度吗?
、
、
我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络爬虫有什么影响?会不会每个线程从套接字中提取一些数据,然后转到下一个线程,让它从套接字中提取一些数据,等等? 基本上我想问的是,用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
1
回答
在angular universal中检测网站页面中的网络爬虫
、
、
、
我想要检测服务器端呈现的对我的页面的当前请求- ssr来自网络爬虫或普通用户。 我想在网络爬虫中做一些事情,而不是当它是用户的时候。 我想在网络爬虫访问页面以获取完整数据时运行ng-in-viewport。 而不是在用户使用我的页面时运行。 如何检测这个东西?
浏览 4
提问于2019-10-22
得票数 1
2
回答
用于唯一存储链接的数据结构
、
作为构建网络爬虫的一部分,我提取了爬虫访问的链接。 什么样的数据结构适合存储具有唯一标识符的每个URL,因此在访问页面之前,我可以测试该页面是否已经被访问过。
浏览 0
提问于2013-08-07
得票数 1
1
回答
如何从PHP中的Python脚本(带有参数)执行函数?
、
、
我最近一直在用PHP开发一个网络爬虫,作为一个新的PHP程序员,我不是最先进的。我对Python也有相当的了解,我可以用Python做一些事情,但在PHP中却不能。 有什么方法可以让我在PHP脚本中运行带有参数的Python函数吗?请在你的答案具体,因为我不是令人惊讶的PHP。
浏览 4
提问于2014-11-01
得票数 0
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP爬虫
php爬虫
Golang 原生实现简单爬虫:了解网络爬虫原理
php 网站爬虫入门
Go语言网络爬虫调度器的实现
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券