爬虫抓取运行js_爬虫js怎么抓取_java爬虫抓取 - 腾讯云开发者社区

node.js、web-crawler

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

2回答

如何将新的URL传递给Scrapy Crawler

python、django、multithreading、celery、scrapy

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬

浏览 0提问于2013-05-23得票数 2

2回答

浏览器限制会影响网页爬虫吗？

redirect、asp.net-mvc-4、web-crawler

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

2回答

有没有办法在python中抓取网页，让爬虫只抓取新的链接。

python、web-scraping、web-crawler

我想抓取一个网页(新闻)，只获得最新的链接。我有一个爬虫代码，从一个网站获得所有的链接，需要2-3个小时来获得大约30000个链接，并在数据库中存储。如果下次运行爬虫程序时，我只想插入新的链接，该怎么办？我知道我可以在插入数据库之前做一个过滤器，但我希望爬虫只抓取新的链接，而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情？

浏览 1提问于2018-04-18得票数 0

1回答

如何通过url参数更改开放图形meta标签内容

javascript、html、meta-tags、url-parameters

我正在尝试使用url参数和打开的图形meta标签来制作一个自定义的嵌入生成器，但是每当我将链接发布到诸如Discord之类的站点时，它都会使用我为其设置的默认标签，而不是url参数。有人知道怎么解决这个问题吗？我已经发布了代码和下面发生的事情的示例图像。 ? <html prefix="og: https://ogp.me/ns#"> <meta property="og:title" content="Title"> <meta property="

浏览 24提问于2021-02-03得票数 1

回答已采纳

1回答

爬虫不读取我的javascript附加的meta标签

javascript、html、jquery、meta-tags

爬虫在我的头中没有通过脚本附加的meta标签：有没有合适的JS代码格式可以不阻止爬虫抓取我的脚本？

浏览 1提问于2020-12-15得票数 1

3回答

运行爬虫程序不会获得与训练时相同的数据

import.io

当训练我的爬虫程序抓取Yelp页面时，它不需要我做任何事情就能获得所有信息，但当我运行爬虫程序时，地址无法识别，也不会记录。

浏览 1提问于2015-07-14得票数 7

1回答

如何知道你是否被屏蔽从一个网站的网页刮刮？

python、web-scraping

catch (e){}</script> <script type="text/javascript" src="/fundadst.rvezxdcvwbzdewcsbar.js

浏览 6提问于2019-11-01得票数 0

回答已采纳

1回答

Sharepoint 2013 Web爬虫程序

performance、sharepoint、sharepoint-2010、web-crawler、sharepoint-2013

我的团队一直在使用Sharepoint 2010抓取大量外部网站。 Sharepoint web爬虫没有提供足够的可配置性，因此我们一直使用快速web爬虫来运行爬虫。它比2010年的Sharepoint爬虫更强大吗？

浏览 2提问于2013-01-17得票数 1

1回答

Scrapy :与二级网站互动时的程序组织

python、scrapy

我正在使用Scrapy 1.1，我有一个项目，我有一个爬虫'1‘抓取站点A(在那里我获得了90%的信息来填充我的项目)。然而，根据站点A抓取的结果，我可能需要从站点B抓取额外的信息。就开发程序而言，在爬虫'1‘中抓取站点B是否更有意义，或者是否可以从管道对象中与站点B交互。我更喜欢后者，认为它解耦了2个站点的抓取，但我不确定这是否可能，或者是处理这种用例的最佳方式。另一种方法可能是对站点B使用第二个爬行器(爬行器'2')，但是我会

浏览 16提问于2017-02-27得票数 0

回答已采纳

1回答

如果只对注册帐户可见内容，如何抓取网站？

web-application、web-crawler

我正在阅读关于网络蜘蛛的攻击和防御策略。假设我在我的网站上有敏感的信息，这些信息应该受到第三方网络蜘蛛的保护。Me:我将敏感数据设置为只对注册用户帐户可见的。游客帐户看不见他们，因此不能爬行。用例2：攻击者:注册(或购买)多个帐户，使用多个帐户以分布式和自动的方式爬行，因此单个帐户看起来不那么可疑。在这两个用例中，攻击者的方法实用吗？防止这两次攻击的重要秘诀是什么？

浏览 0提问于2019-08-02得票数 3

回答已采纳

1回答

终止cron作业任务

cron、web-crawler

我目前正在使用cronjob每晚运行一个爬虫，它只能在晚上运行。但我发现有时数据量会很大，一夜之间不足以抓取所有东西。所以我必须在早上6:00结束这个过程如何使用cronjob终止爬虫进程？

浏览 1提问于2016-10-07得票数 0

0回答

Scrapy:一个项目中的多个爬虫

python、scrapy

我已经写了一个网络爬虫与代理使用scrapy。因为我总是需要一个随机的代理池来避免被禁止，我决定编写另一个爬虫来抓取一个提供免费IP的网站。每次开始爬虫过程时，我都需要首先抓取IP，将它们导出到一个文件中，然后转到另一个爬虫的根目录并将IP读取到setting.py中。我想知道是否有可能将两个爬虫合并到一个项目中，这样我只需要运行一个命令就可以开始整个爬行过程。非常感谢!

浏览 7提问于2016-07-07得票数 0

3回答

scrapy能像Selenium一样控制和显示浏览器吗？

python、selenium、scrapy

当我使用Selenium时，我可以看到浏览器GUI，是否可以使用scrapy或严格基于scrapy命令行？

浏览 4提问于2015-11-03得票数 1

回答已采纳

1回答

Web爬虫更新策略

web-crawler、scrapy

我想抓取有用的资源(比如背景图片)。)从某些网站。这不是一项艰苦的工作，特别是在一些出色的项目，如刮刮的帮助下。这是我想过的一个粗略的算法。我把爬行过程分成了几个回合。每一轮URL存储库都会为爬虫提供一定数量(比如，10000)的URL来进行抓取。具体步骤如下： 爬虫</e

浏览 1提问于2010-04-05得票数 4

2回答

随后抓取多个蜘蛛

scrapy、web-crawler

问题是，如果在数据库中有四个spider_closed，我需要运行"scrapy crawl xyz“4次，但我想避免这种情况，当当前的”URLS“在爬行器的末尾被调用时，我试图触发"scrapy crawl

浏览 17提问于2016-07-29得票数 2

1回答

如何在scrapy工作时更改代理/用户代理等设置？

python-3.x、scrapy

如何在爬虫运行期间更改抓取设置？例如，在完成100个请求后，我需要更改代理。

浏览 22提问于2020-07-28得票数 0

回答已采纳

2回答

我需要为特定的用户代理编写一个网络爬虫

php、web-crawler

我需要编写一个网络爬虫，并希望能够爬行使用一个已知的用户代理。例如，我希望我的爬虫程序充当iphone来抓取网站的移动站点，然后使用Mozilla PC代理再次抓取，等等。这样，我将能够抓取每一个“类型”的网站(移动和个人电脑)。然而，我也希望能够设置我的爬虫的用户代理，这样网站管理员也可以在他们的统计数据中看到访问整个网站的是一个爬虫，而不是真正的用户。所以我的问题是，你们知道如何在PHP中同时设置一个移动代理和一个爬虫代理吗？这有可能吗？

浏览 1提问于2011-05-14得票数 3

回答已采纳

2回答

有没有可以下载整个网站的网络爬虫？

dynamic、hyperlink

需要知道是否有一个爬虫/下载器，可以抓取和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有java script超链接，这些超链接只能由浏览器呈现，因此爬虫程序无法抓取这些超链接，除非爬虫程序自己呈现它们！

浏览 4提问于2010-09-30得票数 0

回答已采纳

3回答

将数据从PHP脚本传递到Python Web Crawler

php、python、stdout、stdin、web-crawler

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？但是，我需要一些方法来让python脚本知道，新数据已经写入文件，以及让php脚本知道爬虫何时完成了它的任务。

浏览 1提问于2011-03-31得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

爬行url \如何在node.js中获取动态链接

如何将新的URL传递给Scrapy Crawler

浏览器限制会影响网页爬虫吗？

有没有办法在python中抓取网页，让爬虫只抓取新的链接。

如何通过url参数更改开放图形meta标签内容

爬虫不读取我的javascript附加的meta标签

运行爬虫程序不会获得与训练时相同的数据

如何知道你是否被屏蔽从一个网站的网页刮刮？

Sharepoint 2013 Web爬虫程序

Scrapy :与二级网站互动时的程序组织

如果只对注册帐户可见内容，如何抓取网站？

终止cron作业任务

Scrapy:一个项目中的多个爬虫

scrapy能像Selenium一样控制和显示浏览器吗？

Web爬虫更新策略

随后抓取多个蜘蛛

如何在scrapy工作时更改代理/用户代理等设置？

我需要为特定的用户代理编写一个网络爬虫

有没有可以下载整个网站的网络爬虫？

将数据从PHP脚本传递到Python Web Crawler

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐