不能运行我的蜘蛛槽与php卷曲抓取云

、、

我无法让它将我的php连接到spiders$ch = curl_init(); {"status": "badrequest", "message": "method not allowed&q

浏览 7提问于2017-07-07得票数 0

1回答

如何在云中部署python scraper？

、、、、

我有一些python抓取器(脚本)，我想将它们部署到云中，以便使用某种调度器或cronjob不时地运行它们。问题是我不知道哪个平台可以为我托管刮板和它的输出。附言:我的脚本是基于Python的，使用BeautifulSoup模块。

浏览 1提问于2017-05-19得票数 1

1回答

我想从django视图中启动一个刮痕爬行(我知道它会阻塞，现在不用担心，我稍后会用期货或类似的东西来处理它)，我想恢复爬行所产生的刮痕项目(并对它们做一些事情)。我不希望它们存储在我的数据库中(这就是像这样的东西)，它们不存在。现在，我正在使用scrapy.crawler.CrawlerProcess从django内部启动爬行，我认为信号(比如scrapy.signals.item_scraped？

浏览 1提问于2016-03-23得票数 1

回答已采纳

1回答

刮除-每个星形单独的输出文件

、、、、

我有一只皮肤粗糙的蜘蛛运行良好：import scrapy allowed_domains = ['examplewiki.de'] start_urls = ['http://www.exampleregelwiki.de/index.phptext").e

浏览 0提问于2017-11-18得票数 3

3回答

满是抓痕的大爬行

、、、

我正在尝试建立一个广泛的抓取与scrapy，如何可以运行多个并发蜘蛛，但同时防止他们爬行同一领域？

浏览 5提问于2016-05-16得票数 1

2回答

Scrapy在所有爬行器关闭时获得通知

、、

我正在使用django开始抓取抓取spiders = scrapyd.list_spiders("defaultfor spider in spiders:我可以基于list_id连接所有与</e

浏览 1提问于2020-03-26得票数 0

1回答

将请求传递给不同的蜘蛛

、、

我正在开发一个使用两种不同蜘蛛的网络爬虫(使用scrapy)：非常通用的蜘蛛，可以抓取(几乎)任何网站使用一串启发式提取数据。专门的蜘蛛，能够爬行一个特定的网站A，不能与一般蜘蛛爬行，因为网站的特殊结构(该网站必须被爬行)。到目前为止，一切都运行得很好，但是网站A包含到其他“普通”网站的链接，这些网站也应该被刮掉(使用蜘蛛

浏览 2提问于2017-08-09得票数 1

1回答

如何使用AJAX测试我在Google上的爬虫能力？

、

我创建了我的网站，所以映射到使用PHP，所以我的网站将显然是谷歌爬虫。我已经用Google Fetch测试过了，它似乎可以工作。然而，我尝试过测试我的网站的<

浏览 0提问于2011-07-30得票数 1

回答已采纳

3回答

在scrapy中为1个网站并行运行多个爬虫？

、、、、

我想抓取一个网站与2部分，我的脚本不是那么快，我需要的。scrapy crawl firstSpider但我认为这并不明智。我读了，但我不知道它是否对我的

浏览 2提问于2016-09-07得票数 6

回答已采纳

1回答

如何在scrapy中不同时间抓取多个网站

、、

我有多个网站存储在数据库中不同的抓取时间，如每5/10分钟为每个网站。我已经创建了爬行和运行与cron的蜘蛛。它将从数据库中获取所有网站，并对所有网站进行并行爬行。如何实现以不同的时间抓取存储在数据库中的每个网站？有没有办法用scrapy处理这个问题？

浏览 2提问于2018-09-19得票数 3

5回答

哪个PHP函数会将其显示为‘？something_Decode？

、、

我抓取了一些推文，并将它们打印在我的网站上，卷曲的撇号被呈现为“- tweets”。这真是不太好。我应该通过哪个php函数来运行字符串，以使这些奇怪的字符显示为更接近‘的内容？

浏览 2提问于2011-01-03得票数 9

回答已采纳

1回答

只爬行一次URL的刮伤蜘蛛

、、、、

我正在写一只抓取蜘蛛，它每天爬行一组URL。然而，其中一些网站是非常大的，所以我不能抓取整个网站每天，我也不想产生大量的流量，必要的这样做。我试图理解这一点，但发现中间件有点混乱。一个完整

浏览 4提问于2016-06-10得票数 6

回答已采纳

2回答

404:有没有办法避免在使用scrapy进行抓取时被网站屏蔽？

、、、

我试着使用Scrapy来抓取一些网站上大约70k个项目。但每次它抓取了大约200个项目后，其余的项目都会弹出错误：我相信这是因为我的爬虫被网站屏蔽了，我试着使用随机用户代理建议

浏览 5提问于2016-02-03得票数 0

1回答

Scrapy在分页中提供模棱两可的结果

、、、

我已经创建了一个可以分页的抓取蜘蛛。使用相同的脚本与不同的链接，从相同的网站和分页被“过滤异地请求”停止。在scrapy中打开功能"dont_filter“会在页面上运行infity循环。想知道脚本如何在不做任何更改的情况下提供不同的结果？

浏览 10提问于2020-10-21得票数 0

回答已采纳

1回答

如何优化PHP中多个CURL get请求的速度？

、、、、

我正在通过CURL连接到一个使用PHP的API，并且我收到了一个带有将近5000份订单的json。对于每一个订单，我做了另一个卷曲，得到并接收订单的细节(基本上是2预见)。之后，我使用LARAVEL在数据库中进行一些插入和更新(基本内容)。最大的问题是，对于那5000份订单，我的装船时间几乎是一个小时。我每天晚上都需要一个cron (超过5000人)。我

浏览 5提问于2016-06-29得票数 0

回答已采纳

1回答

哪些分支应与Azure中的部署槽相关联

、、、、

我正在使用部署槽和源代码管理在Microsoft Azure上启动一个应用程序。我不确定将哪个分支与生产部署槽相关联。如果我设置一个暂存环境并将其连接到主分支，然后运行交换，它会正确地切换到生产插槽中的主代码库。如果我换回它，它会切换到staging，它会显示生产环境中的旧代码。这告诉我，production当前没有与分支相关联(我也没有将其设置为分支)。 <em

浏览 3提问于2015-09-20得票数 4

2回答

重新运行PHP* rss提要*

、

我在网上找不到我想要的东西。目前，我有一些获取新闻提要的php代码，每次循环运行时，它都会将其存储在数组槽{0,1,2}中。有趣的是，我不知道如何在不刷新页面的情况下刷新php rss抓取功能。本质上，我有index.php，里面有代码，我想通过javascript在箭头<>中重新运行php脚本。<

浏览 9提问于2017-08-30得票数 1

回答已采纳

2回答

.htaccess拒绝访问文件夹

、、、

我是新来阿帕奇的。所以要对我温柔点:-)order deny,allow我得到了“禁止”的页面，这是可以的，因为我不想让网络用户，蜘蛛或抓取器访问这个文件夹。但是我不能再通过我写的php脚本访问web文件夹了。<e

浏览 1提问于2010-11-17得票数 2

3回答

如何重定向特定IP地址

、、、

我想重定向蜘蛛从访问我的博客。我正在寻找一个解决方案，可以嵌入到网页HTML，以便蜘蛛被重定向离开之前，影响我的页面访问量。比如说javascript，爬虫的IP地址，以及爬虫的引用url，这是可能的吗？

浏览 0提问于2013-12-13得票数 0

2回答

从脚本中运行刮擦(初学者)

、、、

我开始进入python，是的，我已经搜索了这个网站和网络，以寻找答案，但不知怎么的，我真的无法让它运行。现在，我希望从另一个.py文件中开始抓取，这样我就可以直接访问爬行的数据并将其输出到GUI中(稍后会考虑如何做到这一点)。我从 (请求者代码，因为我不需要多次运行蜘蛛)中获取代码，并添加了from scrapy

浏览 1提问于2013-03-19得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在云中部署python scraper？

在django视图中抓取刮伤项

刮除-每个星形单独的输出文件

满是抓痕的大爬行

Scrapy在所有爬行器关闭时获得通知

将请求传递给不同的蜘蛛

如何使用AJAX测试我在Google上的爬虫能力？

在scrapy中为1个网站并行运行多个爬虫？

如何在scrapy中不同时间抓取多个网站

哪个PHP函数会将其显示为‘？something_Decode？

只爬行一次URL的刮伤蜘蛛

404:有没有办法避免在使用scrapy进行抓取时被网站屏蔽？

Scrapy在分页中提供模棱两可的结果

如何优化PHP中多个CURL get请求的速度？

哪些分支应与Azure中的部署槽相关联

重新运行PHP* rss提要*

.htaccess拒绝访问文件夹

如何重定向特定IP地址

从脚本中运行刮擦(初学者)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐