腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
基于
PHP
的Web
爬虫
或基于JAVA的Web
爬虫
、
、
我对基于
PHP
的
网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为
PHP
有类似线程的功能,你们能说一下,哪个
网络
爬虫
更能充分利用吗?基于
PHP
的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
PHP
网络
爬虫
、
我正在寻找一个
PHP
的
网络
爬虫
收集一个大型网站的所有链接,并告诉我,如果链接被打破。问题不是抓取链接,而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL,因为我尝试将搜索链接的深度设置为4,但
爬虫
在浏览器中超时。
浏览 0
提问于2011-04-12
得票数 0
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止
网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个
PHP
脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说
浏览 0
提问于2013-07-27
得票数 1
2
回答
在网站和独立应用程序中使用Django框架
、
我计划为它写一个
网络
爬虫
和一个基于
网络
的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让
网络
爬虫
使用
与
网站相同的MySQL后端(而不是让
网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
1
回答
PHP
cURL
网络
爬虫
、
当我以如下方式运行文件时,此代码在终端中运行正常然而,我很好奇我需要做些什么才能让它在控制台中指定的URL上运行。$
php
webcrawler.
php
http://samplesite.comclass Ga_track function get_ga_implemented
浏览 2
提问于2015-05-05
得票数 1
2
回答
网络
爬虫
的最佳数据库设计
、
、
、
许多数据库系统适合
与
网络
爬虫
一起工作,但是有没有专门为
网络
爬虫
开发的数据库系统(在.net中)。1)
与
网络
爬虫
一起工作的最好的数据库系统是什么? 2)是否有涵盖所有功能的数据库系统!
浏览 2
提问于2011-07-05
得票数 1
4
回答
网络
爬虫
与
IFrames
、
我认识到,这个问题
与
SEO有关,而SEO被认为是一个不相关的话题,然而,所有
与
SEO相关的论坛都讨论一个人可以采取的营销步骤,而不是编程步骤或策略,并希望其他人能够在这里回答这个问题。当我的服务器呈现页面时,如何使用
PHP
从$_SERVER获取引用URL,并将其包含在内容中呢?
浏览 5
提问于2014-01-22
得票数 2
1
回答
如何使用
php
获取HTML页面的标题?
、
、
如何使用
php
获取HTML页面的标题?我已经做了一个
php
网络
爬虫
,我想在我的
爬虫
中实现这一功能,这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。
浏览 0
提问于2011-02-07
得票数 3
回答已采纳
1
回答
Facebook Linter / Open Graph截取URL路径
、
、
、
、
我一直在网上和StackOverflow上寻找答案,但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它,它可以提取所有内容,特别是og:url元标记。当我抓取正常的内容页面时,问题就开始了。尽管我已经三次检查了我的标记格式是否正确,但FB Linter将URI从URL中删除,因此它报告og:url标记只有域名electionstats.com/!页面上实际存在的og:url标记如下所示: 我怀疑这是FB缓存页面的问题,因为在我的About页面上,我进行了快速代码更改,更
浏览 3
提问于2011-10-10
得票数 0
回答已采纳
1
回答
使用
php
检查AngularJS网页上是否存在某个字符串。
、
、
是否仍然可以使用
php
curl或其他语言进行搜索。
浏览 17
提问于2017-02-24
得票数 1
1
回答
使用R的
网络
爬虫
、
、
我想建立一个
网络
爬虫
使用R程序为网站"",它可以访问
与
地址参数的网站,然后从网站获取生成的经度和纬度。这将对我拥有的数据集的长度重复。提前谢谢。
浏览 28
提问于2018-06-08
得票数 -2
1
回答
是什么阻碍了我的
PHP
脚本?
、
、
、
我们有一个
PHP
爬虫
运行在我们的web服务器上。crawler运行时,没有cpu、内存或
网络
带宽峰值。一切都很正常。但是我们的网站(也是
PHP
),托管在同一台服务器上,停止响应。基本上,
爬虫
会阻止任何其他
php
脚本运行。** fsockopen用于将文件下载到crawler!**
浏览 3
提问于2010-05-11
得票数 0
1
回答
多层
网络
蜘蛛
与
正则表达式匹配?
、
、
我需要一个
网络
蜘蛛找到
与
正则表达式的某些链接。那么,你认为最好的解决方案是什么? 也许我可以配置一些现有的应用程序/代码来创建这个
爬虫
。
浏览 4
提问于2011-10-13
得票数 1
回答已采纳
1
回答
Scrapy:没有主机路径,并且启用了持久支持
、
、
如果我运行的
爬虫
与
持久支持启用,我暂时松散的互联网连接。
爬虫
是否会重试那些在临时
网络
丢失期间获得无主机错误路由的URL?
浏览 2
提问于2014-01-21
得票数 1
回答已采纳
1
回答
使用
php
爬虫
将数据索引到ElasticSearch
、
、
我想索引爬行网站到ElasticSearch,但我不知道,我可以索引爬行信息到ElasticSearch
与
php
爬虫
。我知道Apache可以将爬行网站索引到ElasticSearch,但是我对
php
爬虫
一无所知!我可以在
php
web应用程序中使用Apach
浏览 4
提问于2013-05-12
得票数 3
3
回答
用户代理识别和搜索引擎优化
爬虫
数据库
、
特别是,我必须从收集的user agent值开始识别
爬虫
。现在问题来了。是否有公共目录或
网络
爬虫
库?一个空的用户代理头是
与
爬虫
有关还是
与
一个创作过程有关?
浏览 0
提问于2012-08-07
得票数 2
1
回答
如何有效地运行python web
爬虫
、
、
、
我有一个python
爬虫
,它获取信息并将其放入SQL中。现在我也有了
php
页面,它从SQL读取这个信息,并表示它。问题是:为了让
爬虫
程序工作,我的电脑必须全天候工作。是否有一种不同的方式运行
网络
爬虫
?还是我必须在我的电脑上运行?
浏览 1
提问于2015-12-08
得票数 0
回答已采纳
7
回答
哪些语言适合编写
网络
爬虫
?
、
、
、
我有丰富的
PHP
经验,尽管我意识到
PHP
可能不是大型
网络
爬虫
的最佳语言,因为进程不能无限运行。人们推荐的语言是什么?
浏览 1
提问于2010-09-08
得票数 3
回答已采纳
1
回答
如何为多个页面创建一个变量Meta property og:image?
、
、
" content="' + location.pathname.replace(/\.html$/, '.jpg') + '">')</script> 只是尝试编辑元属性,为og:image创建一个
与
.
浏览 1
提问于2013-01-12
得票数 0
2
回答
无法识别附加的h1标记
、
、
、
我在这个页面上用jquery添加了h1标记,如下所示:h1标记和标记的内容显示得很好,但是当我在各种seo工具(例如这个:)中测试我的页面时,我得到的消息是页面没有h1标记。 $(
浏览 2
提问于2013-04-15
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券