php信息爬虫_php 爬虫_php 爬虫 - 腾讯云开发者社区

python、python-3.x、beautifulsoup、web-crawler

我有一个python爬虫，它获取信息并将其放入SQL中。现在我也有了php页面，它从SQL读取这个信息，并表示它。问题是:为了让爬虫程序工作，我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫？还是我必须在我的电脑上运行？

浏览 1提问于2015-12-08得票数 0

回答已采纳

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

java、php、web-crawler

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

我想索引爬行网站到ElasticSearch，但我不知道，我可以索引爬行信息到ElasticSearch与php爬虫。我知道Apache可以将爬行网站索引到ElasticSearch，但是我对php爬虫一无所知！有没有任何php爬虫，它的性能良好，可以索引爬行网站到ElasticSearch？帮助我为我的项目选择php爬虫，我可以将它与ElasticSearch集成。我可以在php web应用程序中使用Apache吗？

浏览 4提问于2013-05-12得票数 3

4回答

PHP重定向是否会影响爬虫或机器人查看网站的方式？

php、web-crawler、robot

例如，如果在我的index.php中有如下内容： <?php header('Location: /mypublicsite/index.php'); ?> 爬虫和/或机器人得到了什么？只有一张白纸？或者它们真的到达/mypublicsite/index.php？

浏览 4提问于2010-08-25得票数 0

回答已采纳

5回答

PHP表单操作不重定向

php、forms、action

我开发了一个网络爬虫来搜索我公司网站上的某些标签，以确保它们是实时的，有谷歌分析，诸如此类。然而，我的公司有近百个网站，所以实际的抓取过程，实际上是一个抓取过程。所以我想创建一个表单，用户输入我们其中一家公司的网址，它只抓取一个网站。我不擅长表单，所以我基本上希望表单做的是存储用户输入的url，然后重定向到一个不同的页面，在那里url被提供给爬虫程序并显示结果。这基本上是我到目前为止所拥有的，没有太多，我在重定向到不同的页面并存储URL变量时遇到了问题，这样我就可以将它传递给我拥有的爬虫代码。 <div id="main-content" class="mc-le

浏览 1提问于2012-07-26得票数 1

回答已采纳

2回答

我需要为特定的用户代理编写一个网络爬虫

php、web-crawler

我需要编写一个网络爬虫，并希望能够爬行使用一个已知的用户代理。例如，我希望我的爬虫程序充当iphone来抓取网站的移动站点，然后使用Mozilla PC代理再次抓取，等等。这样，我将能够抓取每一个“类型”的网站(移动和个人电脑)。然而，我也希望能够设置我的爬虫的用户代理，这样网站管理员也可以在他们的统计数据中看到访问整个网站的是一个爬虫，而不是真正的用户。所以我的问题是，你们知道如何在PHP中同时设置一个移动代理和一个爬虫代理吗？这有可能吗？

浏览 1提问于2011-05-14得票数 3

回答已采纳

2回答

如何欺骗爬虫/扫描器，使其无法检测到网络技术？

php、security

我有一个PHP网站，我已经完成了所有的URL重写。使得PHP扩展被隐藏。但是不知何故，网络爬虫和安全扫描器/漏洞扫描器能够找到我的站点是用PHP开发的。我如何避免这种情况，或者如何欺骗他们，使他们相信这个网站不是通过PHP开发的？

浏览 4提问于2014-02-15得票数 1

回答已采纳

5回答

如何允许爬虫使用robots.txt只访问index.php？

seo、web-crawler、robots.txt

如果我想只允许爬虫访问index.php，这行得通吗？ User-agent: * Disallow: / Allow: /index.php

浏览 0提问于2009-10-28得票数 10

2回答

PHPCrawl可以用于抓取网站吗?与Scrapy有何不同？

xpath、web-scraping、web-crawler、scrapy、phpcrawl

我想刮几个网站，很多人建议使用Scrapy。它是基于Python的，因为我非常熟悉PHP，所以我寻找了替代方案。我得到了一个爬虫PHPCrawl。我不确定它是否只是一个爬虫，或者它也会提供抓取功能。如果它可以用于抓取-它将支持XPath或正则表达式。它怎么能和Python上的Scrapy相比呢？请建议我哪一个是最好的用来抓取网站。谢谢

浏览 0提问于2012-11-22得票数 0

回答已采纳

1回答

TYPO3:用于xampp中crawler扩展设置的'phpPath‘

php、xampp、typo3、typo3-7.6.x、typo3-8.x

我安装了扩展“站点爬虫”。扩展告诉我需要指定PHP bin的路径。所以我写了这个小脚本来获取路径： <?php echo PHP_BINDIR; 我得到了C:\PHP。但是，如果我在扩展设置中输入此路径，则仍会得到No php binary found in 'C:\php'. Please update value for 'phpPath' in crawler extension setup. 为什么我仍然收到这个错误消息，我如何解决这个问题？

浏览 0提问于2016-07-19得票数 1

1回答

如何阻止Web爬虫下载文件

security、spam-filter、web-crawler

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？我应该创建一个PHP脚本，使用cookie跟踪访问者，特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。

浏览 0提问于2013-07-27得票数 1

1回答

有没有免费的php爬虫？

php、phpcrawl

过去我用过自己的爬虫，但现在我需要更健壮的爬虫，我想知道有没有什么好的免费的php爬虫？

浏览 0提问于2010-11-21得票数 3

4回答

PHP警告: exec()无法分叉

php、centos

这是关于我的设置的背景信息。使用apache和php 5.2.17运行Centos。我有一个网站，列出了许多不同零售商网站的产品。我有爬虫脚本，运行从每个网站抓取产品。由于每个网站是不同的，每个爬虫脚本必须定制，以抓取特定的零售商网站。所以基本上每个零售商我有一个爬虫。在这个时候，我有21个爬虫不断运行，以收集和更新这些网站的产品。每个爬虫都是一个php文件，一旦完成了php脚本，它就会检查，以确保它是唯一运行的实例，并且在脚本的最末端，它使用exec再次启动自己，而原始实例关闭。这有助于防止内存泄漏，因为每个爬行器在关闭之前重新启动。不过，最近我将检查爬虫脚本，并注意到其中一个脚本不再运行，

浏览 7提问于2013-12-18得票数 13

回答已采纳

4回答

php文件被alexa crawler执行并导致问题！

php、web-crawler、alexa

我已经编写了一个脚本，它将用于在特定时间自动发布新页面。它只会显示一个倒计时计时器，然后当它达到0时，它会将一个特定的文件重命名为index.php，并将当前的索引重命名为index.php -Modified.php 这里面没有问题。但是在某个时候，我的客户告诉我，我的网站不会出现..我发现index.php被重命名为index- working fied.php，所有其他页面都工作正常。如果没有index.php，我的网站就会显示404错误。然后，我分析了访问日志，发现alexa爬虫已经访问了该发布脚本，这导致了问题我想知道alexa爬虫是如何找到我的内部脚本文件并抓取它的？这会发生在

浏览 1提问于2010-02-26得票数 4

回答已采纳

3回答

如何让搜索引擎找到我的AJAX内容

php、ajax、seo

我有一个页面，通过AJAX动态加载一节内容。我担心这意味着内容不会被搜索引擎找到。为了向你展示我的意思，网站在，动态内容在 -通常没有人会访问第二个链接，它只是加载到第一个页面中。我知道我可以通过使用sitemap.xml告诉爬虫程序读取speakers.php，但然后我会在搜索结果中显示指向speakers.php的链接。我猜最终的解决方案是，如果有人请求/speakers.php，它会将他们重定向到主页，而让爬虫读取数据。有什么建议吗？

浏览 3提问于2008-10-22得票数 1

回答已采纳

3回答

将数据从PHP脚本传递到Python Web Crawler

php、python、stdout、stdin、web-crawler

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？我在考虑标准输入/输出，但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数据已经写入文件，以及让php脚本知道爬虫何

浏览 1提问于2011-03-31得票数 1

1回答

如何使用php获取HTML页面的标题？

php、html、title

如何使用php获取HTML页面的标题？我已经做了一个php网络爬虫，我想在我的爬虫中实现这一功能，这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。

浏览 0提问于2011-02-07得票数 3

回答已采纳

5回答

如何阻止爬虫(如spyder/Nutch-2 )访问特定的页面？

php、apache、.htaccess、web-crawler、nutch

我有一个Windows客户端应用程序，它使用托管在共享商业php服务器中的php页面。在这个php页面中，我将返回一个加密的json。同样在这个页面中，我有一段代码来跟踪哪个in正在访问这个php页面，并且我注意到有一个spyder/Nutch-2爬虫正在访问这个页面。我在想，一个爬虫怎么可能找到一个没有在任何搜索引擎中发布的页面。我有办法阻止爬虫访问这个特定的页面吗？我应该使用.htaccess文件来配置它吗？

浏览 7提问于2014-04-15得票数 1

1回答

/和index.php.如何消除这个重复的页面问题？

seo、duplicate-content

在我的网站根目录中，我有一个index.php，当然还有其他的页面。问题是，当我用爬虫或站点地图爬虫等爬行我的网站时，它会报告两个重复的链接。 www.domain.com/ www.domain.com/index.php 如何强制告诉我的爬虫没有相同页面的两个实例？我是否使用301合并它们？一个规范？.htaccess重定向？等等，我该怎么解决这个问题？

浏览 0提问于2014-09-12得票数 0

回答已采纳

5回答

PHP:如何确定浏览器是否支持PHP中的javascript？

php、javascript、ajax、deep-linking

我正在构建一个AJAX深链接网站。如果用户试图使用Javascript不支持的浏览器访问站点，或者是搜索爬虫，我希望PHP加载页面的所有HTML代码。基本上，PHP将返回整个页面。相反，当用户试图使用Javascript支持的浏览器访问站点时，我希望PHP只返回模板代码，让Javascript (AJAX)来处理其余部分。基本上，PHP只会加载设计元素，并让Javascript用内容填充它们。我研究了PHP的get_browser()函数，但是它似乎不是一个可靠的工具。业界的做法是什么?看看浏览器是否支持Javascript，还是使用PHP的搜索爬虫？背景__：为什么我希望网站有这

浏览 2提问于2010-11-16得票数 5

回答已采纳

1回答

关联内容& SEO，带有外部链接的站点地图，使用CNAME将外部链接作为我自己的链接包含在站点地图中

seo、sitemap、cname

是否有任何HTML代码或页面参数或metaname可以告诉搜索引擎一个页面的内容与另一个域上的另一个页面紧密链接。我保持更新的内容元数据库和关键字元数据库。我不想把这些链接给我的访客看。 1)我需要知道是否有专门与爬虫通信相关链接的协议，以提高我的排名我是否可以通过代码告诉爬虫(爬虫，特别是爬虫，比如没有跟踪地址给爬虫)，mydomain.com/Porduct.php是紧密相连的 http://ebay.com/sameProduct http://wikipedia.com/GenericProduct or http://google.com?q=someKeywords 我

浏览 6提问于2012-12-08得票数 1

1回答

网络爬虫会遇到什么危险？

web-crawler

我刚写完一个爬虫，一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此，我的问题是，web爬虫(用PHP或Java编写)是否能够刮起可能会对爬虫造成损害的站点？

浏览 3提问于2014-11-08得票数 1

1回答

查找与该页位于同一域的页面上的链接

php、web-crawler

我正在建立一个爬虫，从一个网站的网页，如example.com，并找到这个网页上的所有链接，都在同一领域。因此，假设这个页面上有example.com/hello.php、facebook.com/hello.php。所以我只想列出www.example.com/hello.php。我使用的是PHP简单的HTML (simplehtmldom.SourceForge.net/)。 $html = file_get_html('http://www.example.com/'); // Find all links foreach($html->find('a

浏览 1提问于2014-06-06得票数 1

回答已采纳

1回答

刮痕。LinkExtractor中的意外符号

python、python-2.7、scrapy

我正在学习Scrapy图书馆，并试图做一个小爬虫。这是爬虫的规则： rules = ( Rule(LinkExtractor(restrict_xpaths='//div[@class="wrapper"]/div[last()]/a[@class="pagenav"][last()]')), # Rule(LinkExtractor(restrict_xpaths='//span[@class="update_title"]/a'), callback='parse_item')

浏览 1提问于2016-05-06得票数 2

回答已采纳

1回答

是什么阻碍了我的PHP脚本？

php、performance、apache、web-crawler

我们有一个PHP爬虫运行在我们的web服务器上。crawler运行时，没有cpu、内存或网络带宽峰值。一切都很正常。但是我们的网站(也是PHP)，托管在同一台服务器上，停止响应。基本上，爬虫会阻止任何其他php脚本运行。编辑： ** fsockopen用于将文件下载到crawler！**

浏览 3提问于2010-05-11得票数 0

1回答

如何提取我的爬虫目前所站的网址？

python、scrapy、web-crawler

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？谢谢。

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

PHP在基于Node.js的web应用程序上填充请求？

web-application、php、node.js

我们有一个基于Node.js的web应用程序，它的路由如下： myapp.com/posts/[postId] 我们跟踪奇怪的请求，这导致404在这条路线上。这些请求涉及的路线如下： /posts/phpinfo.php /posts/.user.ini /posts/info.php3 /posts/phptest.php 我们既不使用PHP，我也不知道. 在我看来，似乎是一个爬虫/机器人请求这些路线，使用一些PHP相关的东西，如postIds，这是没有意义的(对我). 这是合法的，虽然是无用的，还是与安全有关的问题？是什么导致的？

浏览 0提问于2019-08-22得票数 0

回答已采纳

1回答

php - google爬虫能检测if语句中的元标记吗？

php、meta

我有一个模板网页，有一个固定的页眉/页脚。根据要显示的主体内容，我需要更改头部中元标记的内容。在谷歌搜索之后，我了解到google爬虫不会运行任何javascript代码，也不会在页面中读取php变量。如果是的话，google爬虫会不会忽略If语句来检测到下面的元标记？ <?php if(about page) ?> <meta ...> <meta ...> <meta ...> <?php } else if(contact page) { ?> <meta ...> <

浏览 0提问于2014-04-27得票数 0

回答已采纳

1回答

基于PHP crawler的IP切换

php、multithreading、proxy、ip、web-crawler

我正在寻找一个解决方案，以切换IP时自动运行PHP爬虫。我有一个自定义的爬虫，它运行100个线程，但由于油门限制，我经常被阻塞。因为PHP不支持多线程，所以我设置了windows调度程序来并行运行PHP应用程序。我想为每个线程分配一个不同的IP地址，并欢迎任何建议来克服这个问题。

浏览 1提问于2014-04-14得票数 0

2回答

AWS胶爬行器是做什么的？

amazon-web-services、aws-glue

我读过AWS胶水文档re:爬虫在这里：，但我仍然不清楚glue爬虫到底做了什么。爬虫是否遍历S3存储桶，并创建指向这些存储桶的指针？当文档说“爬行器的输出由数据目录中定义的一个或多个元数据表组成”时，这些元数据表的目的是什么？

浏览 1提问于2018-12-04得票数 3

回答已采纳

1回答

在scrapy下载图像时获取钩子失败

python、django、scrapy

我正在尝试用爬虫从网站下载图片。我的爬虫运行得很好，数据库里也有东西这是scrapy的调试 2012-12-20 09:25:23+0800 [working] DEBUG: Crawled (200) <GET http://www.example.com/images/28_34.jpg> (referer: None) 2012-12-20 09:25:23+0800 [working] DEBUG: Image (downloaded): Downloaded image from <GET http://www.example.com/images/28_34.

浏览 1提问于2012-12-19得票数 0

回答已采纳

1回答

如何跟踪PHP警告:输入变量超过1000

php

我有一个相对较高的流量站点，大约每天一次就会产生错误消息： PHP警告:未知:输入变量超过1000。若要增加限制，请更改max_input_vars中的php.ini。在第0行中未知我的猜测是，这是由于某个爬虫找到了一个从未结束的URL链接结构。但是，我在访问日志中找不到任何问题(例如带有1000+ get参数的url )。有什么简单的方法能洞察到这个警告吗？在加载任何php脚本之前就会发生这种情况，所以我认为不可能使用php进行内省。如果我有简单的细节，如URL，它将很容易解决。

浏览 2提问于2013-10-08得票数 1

回答已采纳

2回答

爬虫标头

http-headers、web-crawler

我正在创建一个简单的爬虫，它将从预定义的站点列表中抓取。我的问题很简单:有没有爬虫应该特别使用的http头？什么被认为是必需的，什么是需要定义的？

浏览 3提问于2016-11-18得票数 2

2回答

使用noscript优化SEO

html、ajax、seo

我有使用ajax加载帖子的新闻门户，以获得更好的用户体验。Web爬虫看不到javascript生成的链接和文本，所以我读到了关于为爬虫使用noscript标记的文章。在noscript部分中，我以正确的方式(在我的php代码中)使用标题标记来呈现标题、字幕、描述和链接到post。许多SEO分析器网站现在看到了这些内容，但我不知道真正的爬虫像谷歌和其他。他的这是一个很好的方式，使我的内容可见的爬虫？我知道这很容易..。

浏览 0提问于2015-04-22得票数 3

1回答

crawler JMeter中出错

java、jmeter

我在JMeter中有一个爬虫测试(爬虫)的问题，我在java中也有本机代码，它不能工作，因为我需要在POST中发送一个名为javax.faces.ViewState的参数我只需要绕过这个参数，然后我将我的代码留在Java中，根据您的意见，爬虫(爬虫)会更可行。在此处输入图像描述 public static void main(String[] args) { try { Connection.Response loginForm = Jsoup.connect("http://appware-sst.com/elegancia-ejecutiva"

浏览 2提问于2017-04-06得票数 0

1回答

PHP :获取存储库信息

php、symfony、github、web-crawler

我正在构建一个页面来显示一些特定的存储库。我需要知道的信息是作者、描述和当前版本的。当然，我可以抓取github存储库页面并找到包含这些信息的div，但是如果Github更改了HTML，我的爬虫就没用了。因此，我正在搜索一个官方方法，以便使用PHP获取这些信息。这个案子有解决办法吗？我在用symfony。非常感谢。

浏览 3提问于2014-08-06得票数 0

1回答

将.htaccess更改为工作?_escaped_fragment_= URL

php、apache、.htaccess

我有一个阿贾克斯网络应用程序，我需要谷歌索引。所以我使用了hashbang，并且我需要将?_escaped_fragment_=传递给一个单独的爬虫PHP。目前 DirectoryIndex index.php RewriteEngine on RewriteCond %{QUERY_STRING} ^_escaped_fragment_=(.*)$ RewriteRule ^$ crawler.php?cat=%1 [QSA,L] 重定向到像这样的url /crawler.php/m/GkQs6Mw4W8。如何将爬虫重定向到这样的URL， crawler.php?cat=m&

浏览 0提问于2014-11-10得票数 0

3回答

查找给定url的基本href

php、web-crawler、baseline

我正在修改一个简单的php爬虫脚本。它使用的一个模块是将相对urls转换为绝对urls。为此，我需要找到一种方法来确定给定url的基本href。否则，我会得到一堆错误转换的链接。我需要一个简单的函数来检查一个url是否有一个基本的href标签，如果有，返回它。谢谢

浏览 4提问于2012-04-03得票数 1

4回答

用php编写客户端重定向服务器端

javascript、php、.htaccess、redirect

我正在寻找一个客户端重定向到另一个领域的PHP。我不想做301 - 302 - 307等重定向的原因是因为我希望页面向爬虫程序发送一个200HTTP OK响应。我通常使用混淆的JavaScript在静态use主机(如S3 )上执行此操作，但是，我意识到爬虫程序可能会拾取JS，因为它是客户端。我使用的未被阻塞的JS代码示例； window.location.href = "http://yourURL.com"; 然而，爬虫很难找到PHP，所以我想做一个类似的重定向，但用的是PHP。如果有人能分享他或她的意见，这将是最好的方式。提前感谢！

浏览 0提问于2015-07-29得票数 0

1回答

服务端渲染如何帮助爬虫？服务器端渲染和客户端渲染哪个更好？

angular、reactjs、web-crawler、google-crawlers

我正在阅读angular的服务器端渲染文档，因为它们提到服务器端渲染是帮助爬虫。我知道在服务器端渲染爬虫可以获得整个dom，但爬虫也可以与组件交互，那么它如何帮助爬虫呢？从安全的角度来看，服务器端渲染和客户端渲染哪个更好？我也为react读到了同样的东西。

浏览 18提问于2019-09-15得票数 0

6回答

Tor网络爬虫

php、proxy、web-crawler、tor、transparentproxy

好的，这就是我需要的。我有一个基于PHP的网络爬虫。它可以在这里访问：现在，我的问题是我的爬虫需要在SOCKS端口9050上抓取页面。问题是，我必须通过Tor隧道它的连接，这样它才能解析.onion域，这就是我要索引的。(仅以.onion结尾。)我使用php crawl.php从命令行调用此脚本，并添加适当的参数来抓取页面。我的想法是:有没有办法强迫它使用Tor？或者我可以强制我的整个机器通过Tor进行隧道操作，以及如何实现？(比如强制所有流量通过127.0.0.1:9050)也许如果我设置了全局代理设置，php会尊重它们吗？如果我的任何解决方案都有效，我该怎么做呢？(请按步骤说明，我是菜鸟

浏览 7提问于2012-02-11得票数 10

1回答

这是避免在新选项卡或窗口中显示弹出内容的好做法吗？

php、popup、referrer

我有一些带有照片缩略图的页面，假设脚本是thumbnails.php。每个图标都有一个指向popup.php?id=nnn的链接，该链接在弹出窗口中打开，以显示更大的图像和一些信息。我不希望用户直接转到domain.com/popup.php?id=nnn来获得整个窗口或选项卡中的弹出式小内容。因此，此脚本首先检查引用人是否是包含缩略图的页面。如果不是，则打开descrption.php?id=nnn。此页面设计为适合具有扩展信息的常规屏幕。我是这样做的，主要是在网络爬虫中思考。这是一个好的实践吗？

浏览 0提问于2012-04-10得票数 0

1回答

Crawler将参数从url添加到链接

php、http、parameters、apache2、web-crawler

我尝试了两种不同的网络爬虫(Sistrix和)。这两个爬虫都会报告有关/和/?katID=12等URL的重复内容的错误。事实证明，如果爬虫调用url /projekte/index.php?katID=12，它会找到<a href="/">Home</a>并将其作为链接添加到/?katID=12。看起来url ?katID=12中的参数被添加到页面上没有参数的每个链接中。如果我使用浏览器或wget，我会看到想要的到/的简单html链接。我做错什么了吗？服务器配置？这是爬虫中的bug还是一个特性？

浏览 5提问于2013-04-02得票数 2

回答已采纳

1回答

AWS Glue Crawler不追加数据

aws-glue、aws-glue-data-catalog

我已经创建了aws爬虫，它使用分类器将csv文件导入数据表。效果很好。问题:每次爬虫覆盖旧数据。我想保留以前的数据，并附加csv文件的新内容。也就是说，我已经上传了250个记录的csv文件。当我执行那个爬虫时，它填充了250行的表。现在，如果我用其他内容替换csv文件，那么它将覆盖旧的250行，并且只使用最新的数据填充表。有谁能帮我吗?我如何保存旧记录和附加新数据。谢谢,

浏览 0提问于2019-11-04得票数 1

回答已采纳

5回答

file_get_contents对html输入不返回任何内容。

php、web-crawler、file-get-contents

file_get_contents()在上返回正确的文件内容，而在上不返回正确的文件内容。主要的区别是是一个php项目，而是html。基本上，我正在php中构建一个网络爬虫。当我成功地爬过至少150+站点时，它并没有爬过那个特定的站点。

浏览 2提问于2015-12-24得票数 0

回答已采纳

4回答

在ajax请求的中间重定向

javascript、jquery、codeigniter、asynchronous

我有一个网站，用户可以发布链接。用户在表单中填写两个字段：标题 URL 当用户点击“提交”，我有一个爬虫，寻找提供的链接图像，并制作一个缩略图。问题是，爬虫通常需要5-10秒的时间来完成加载和剪切拇指。我想我可以像这样做一个ajax调用。正如您所看到的，当用户首先提交一个链接时，我们将看到它是否有效(第一个ajax调用)，如果成功，我们将执行另一个ajax调用来尝试查找和保存该链接的图像。我的想法是在将用户移动到links.php页面时这样做，但是，我发现如果这样做，AJAX调用中断，而save_image.php中的函数不会运行。如何避免让我的用户等待save_im

浏览 5提问于2012-08-18得票数 0

2回答

如何为scrapy编写规则以添加访问过的urls

python、scrapy、web-crawler

当scrapy关闭时，它会忘记所有的urls。我想给scrapy一组网址，已抓取，当它是开始。如何向爬虫添加规则，让爬虫知道哪些urls被访问过？当前函数： SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) 只需使用parse告诉爬虫抓取哪个

浏览 0提问于2012-11-28得票数 3

1回答

php中的简单爬虫回显链接

php

我想用php做一个简单的爬虫，它可以让我获取网页中的链接，回显它们的url，然后爬行到其他页面，在某个特定的域名下做同样的事情。这里有必要使用cURL吗？Also..how会指定爬虫的深度。到目前为止，我有这样的想法： $dom = new DOMDocument; $dom->loadHTML($html); foreach( $dom->getElementsByTagName('a') as $node ) { echo $dom->saveXml($node), PHP_EOL; }

浏览 1提问于2011-07-06得票数 0

回答已采纳

1回答