php 爬虫源码_爬虫工具源码php_python爬虫源码 - 腾讯云开发者社区

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

0回答

PyQt5制作雪球网股票数据爬虫工具，源码谁有？

、

PyQt5制作雪球网股票数据爬虫工具，源码谁有

浏览 45提问于2022-06-26

2回答

抓取图像、整个Web页面并缓存它们

我正在开始一个项目，想知道图像中的人物和图像所在的整个网页之间的关系。

浏览 0提问于2010-06-16得票数 0

1回答

如何将AWS Crawler配置导出到JSON (或类似文件)并签入到源代码管理？

、、

我的团队已经在AWS Glue中开发了多个爬虫程序来扫描数据和编目模式。我希望检查这些爬虫到我们的源码控制，但我无法找到这样做的方法。我是否可以将爬行器导出为JSON或XML，以便能够检入该文件？

浏览 20提问于2020-04-28得票数 1

1回答

有没有可能通过爬行别人的网站来创建一个网站地图？

、、

例如，我想找出网站上有哪些子域等，但没有导航。我能以某种方式爬行网站并创建一个sitemap吗？例如，是否可以使用www.google.com来查找是否存在images.google.com、drive.google.com等？

浏览 0提问于2014-02-21得票数 0

3回答

检索包括嵌入对象的网页

、

我想取一个网页，包括图像，flash动画和其他嵌入式对象。实现这一目标的直接方法是什么？

浏览 1提问于2010-04-19得票数 2

1回答

我已经写了一个php网络爬虫来索引只有180个特定来源的内容，但它平均每页需要2秒来分析，抓取和保存我想要的内容:图片，网址，标题，完整内容，摘录，标签。这似乎非常低效，特别是如果我想达到1000个源码的话。我应该修改什么？lynx -auth用户名:密码website.com/crawler.php?group=1 lynx -auth用户名:密码website.com/crawler.php

浏览 0提问于2012-09-26得票数 1

1回答

抓取的html与浏览器中的html不同

我使用网络收获来获取HTMLs，但是我发现我得到的和浏览器中的略有不同。html中的几个数字被一个破折号(-)替换成了用web采集爬行的HTML中的数字。我保证我的浏览器中的URL和web采集中的http请求中的URL是相同的。我怎么才能让它工作呢？

浏览 0提问于2014-09-23得票数 1

1回答

如何模拟googlebot以查看React应用程序中的哪些链接将被索引？

我正在开发一个反应应用程序。我最近实现了服务器端呈现(SSR)，索引覆盖范围似乎要好得多。我知道谷歌搜索控制台，但我只能一次检查一个URL。

浏览 0提问于2020-03-27得票数 2

1回答

在c++/c#中，从哪里开始抓取/抓取？

、、、、

首先，我希望抓取对于从桌面.exe向网站发送请求和获取数据来说是正确的。如果是，我应该使用什么库或插件？我是否应该使用另一种语言(如Java或其他语言)来完成此任务？我需要一些“提示”，因为我真的不知道从哪里开始…

浏览 0提问于2014-01-18得票数 1

3回答

web爬虫/蜘蛛获取基于ajax的链接

、、

我想要创建一个web爬虫/蜘蛛来迭代地获取网页中的所有链接，包括基于javascript的链接(ajax)，对页面上的所有对象进行编目，构建和维护站点层次结构。有开放源码工具吗？布拉杰什

浏览 1提问于2011-07-01得票数 0

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

使用php爬虫将数据索引到ElasticSearch

、、

我想索引爬行网站到ElasticSearch，但我不知道，我可以索引爬行信息到ElasticSearch与php爬虫。我知道Apache可以将爬行网站索引到ElasticSearch，但是我对php爬虫一无所知！我可以在php web应用程序中使用Apache吗？

浏览 4提问于2013-05-12得票数 3

4回答

如何用python获取get浏览器的源代码

、、

我正在用scrapy写一个爬虫，但是，我遇到了一些用js渲染的网站，因此urllib2.open_url不能工作。我发现我可以用webbrowser.open_new(网址)打开浏览器，但是我不知道如何用webbrowser获取页面的源码。

浏览 1提问于2013-01-11得票数 2

1回答

如何阻止Web爬虫下载文件

、、

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupa

浏览 0提问于2013-07-27得票数 1

2回答

我需要像Apache Nutch这样没有Hadoop的开源爬虫

、、

我需要一个开放源码的爬虫功能，如网址规范化，网址过滤器，解析器，礼貌，排除一些网址，但我所做的是无论如何都不大。这只是大约500个主机与他们的1级外链，我需要保持最新。或者任何其他具有这些功能的简单爬虫？我不需要任何自适应的获取调度，排名等。我只有一个主机列表，我应该使用一个单一的机器获取他们的外部链接。我更喜欢Nutch的叉子，因为我有使用它的经验。

浏览 0提问于2014-04-03得票数 2

1回答

将结果投到mysql中的站点爬虫/蜘蛛

、、

因为并不是所有的页面都是从数据库中创建的，所以有人建议我们有一个爬虫，可以抓取站点，并将页面url和数据丢到mysql中，并在上面有sphinx索引。有没有人知道开放源码蜘蛛，它有一个mysql存储选项。谢谢。

浏览 0提问于2010-02-22得票数 4

回答已采纳

1回答

有没有免费的php爬虫？

、

过去我用过自己的爬虫，但现在我需要更健壮的爬虫，我想知道有没有什么好的免费的php爬虫？

浏览 0提问于2010-11-21得票数 3

2回答

有哪些好的java库可以用来搜索和抓取网页中的数据。

、、、、

有哪些好的开源java库可以搜索和抓取网页中的数据并将其放入数据库中。例如，假设我有一个页面，如下所示：<td colspan=3>123 My Street </td></tr> "Address:“是关键，但实际上我正在尝试获得"123 My Street”，它有一堆html标签和空格。理想情况下，我希望获取字符串"Address:“后面的td之间的值。似乎JSoup可以完成查找，但是我没有看到一个

浏览 1提问于2011-07-29得票数 1

4回答

PHP警告: exec()无法分叉

、

使用apache和php 5.2.17运行Centos。我有一个网站，列出了许多不同零售商网站的产品。我有爬虫脚本，运行从每个网站抓取产品。由于每个网站是不同的，每个爬虫脚本必须定制，以抓取特定的零售商网站。所以基本上每个零售商我有一个爬虫。在这个时候，我有21个爬虫不断运行，以收集和更新这些网站的产品。每个爬虫都是一个php文件，一旦完成了php脚本，它就会检查，以确保它是唯一运行的实例，并且在脚本的最末端，它使用exec再次启动自己，而原始实例关闭

浏览 7提问于2013-12-18得票数 13

回答已采纳

点击加载更多