网络爬虫与php - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

PHP网络爬虫

、

我正在寻找一个PHP的网络爬虫收集一个大型网站的所有链接，并告诉我，如果链接被打破。问题不是抓取链接，而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL，因为我尝试将搜索链接的深度设置为4，但爬虫在浏览器中超时。

浏览 0提问于2011-04-12得票数 0

1回答

如何阻止Web爬虫下载文件

、、

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说

浏览 0提问于2013-07-27得票数 1

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

1回答

PHP cURL网络爬虫

、

当我以如下方式运行文件时，此代码在终端中运行正常然而，我很好奇我需要做些什么才能让它在控制台中指定的URL上运行。$php webcrawler.php http://samplesite.comclass Ga_track function get_ga_implemented

浏览 2提问于2015-05-05得票数 1

2回答

网络爬虫的最佳数据库设计

、、、

许多数据库系统适合与网络爬虫一起工作，但是有没有专门为网络爬虫开发的数据库系统(在.net中)。1)与网络爬虫一起工作的最好的数据库系统是什么？ 2)是否有涵盖所有功能的数据库系统！

浏览 2提问于2011-07-05得票数 1

4回答

网络爬虫与IFrames

、

我认识到，这个问题与SEO有关，而SEO被认为是一个不相关的话题，然而，所有与SEO相关的论坛都讨论一个人可以采取的营销步骤，而不是编程步骤或策略，并希望其他人能够在这里回答这个问题。当我的服务器呈现页面时，如何使用PHP从$_SERVER获取引用URL，并将其包含在内容中呢？

浏览 5提问于2014-01-22得票数 2

1回答

如何使用php获取HTML页面的标题？

、、

如何使用php获取HTML页面的标题？我已经做了一个php网络爬虫，我想在我的爬虫中实现这一功能，这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。

浏览 0提问于2011-02-07得票数 3

回答已采纳

1回答

Facebook Linter / Open Graph截取URL路径

、、、、

我一直在网上和StackOverflow上寻找答案，但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它，它可以提取所有内容，特别是og:url元标记。当我抓取正常的内容页面时，问题就开始了。尽管我已经三次检查了我的标记格式是否正确，但FB Linter将URI从URL中删除，因此它报告og:url标记只有域名electionstats.com/！页面上实际存在的og:url标记如下所示：我怀疑这是FB缓存页面的问题，因为在我的About页面上，我进行了快速代码更改，更

浏览 3提问于2011-10-10得票数 0

回答已采纳

1回答