在打印重定向的URL( 301重定向后的新URL)时,我有一个小问题,当抓取给定的网站。我的想法是只打印它们,而不是刮掉它们。我现在的代码是:
import scrapy
import os
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class MySpider(CrawlSpider):
name = 'rust'
allowed_domains = ['example.com']
start
我正在运行一个带有cron的刮擦蜘蛛,但是它抛出了一个ImportError异常:
Traceback (most recent call last):
File "/Users/som/scrapy_testing/scrapy_testing/spiders/hm_spiders.py", line 2, in <module>
import scrapy
File "/Library/Python/2.7/site-packages/scrapy/__init__.py", line 48, in <module>
我在执行python-scrappy示例模块时遇到错误。
我的Stacktrace:
gridlex@gridlex-laptop:~/Documents/tutorial$ scrapy crawl tutorial/dmoz
/usr/lib/python2.6/dist-packages/zope/__init__.py:3: UserWarning: Module twisted was already imported from /usr/lib/python2.6/dist-packages/twisted/__init__.pyc, but /usr/local/ l
我想要一些作业的网站地址,所以我写了一个刮擦蜘蛛,我想用xpath://article/dl/dd/h2/a[@class="job-title"]/@href,获得所有的值,但是当我使用命令执行这个蜘蛛时:
scrapy spider auseek -a addsthreshold=3
用来保存值的变量"urls"是空的,有人能帮我弄清楚吗,
这是我的代码:
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.selector import Selector
from scrapy.c
我把这个输入到终端:
$ scrapy startproject tutorial
我不能让它开始一个新的刮刮项目,我继续安装所有的东西刮刮需要。我就是没法让它起作用。这是它给我的错误信息:
File "/Users/carterdavis/anaconda/bin/scrapy", line 4, in <module>
execute()
File "/Users/carterdavis/anaconda/lib/python2.7/site-packages/scrapy/cmdline.py", line 122, in execute
cm
我对python很陌生,并试图通过一个小例子,但是我遇到了一些问题!我只能抓取第一个给定的网址,但我不能抓取超过一个网页的或整个网站的问题!
请帮助我,或给我一些建议,我如何可以爬行整个网站或更多的网页,在一般情况下.
我所做的例子很简单..。我的items.py
import scrapy
class WikiItem(scrapy.Item):
title = scrapy.Field()
我的wikip.py (蜘蛛)
import scrapy
from wiki.items import WikiItem
class CrawlSpider(scrapy.S
我试图在Windows上安装Scrapy,并按照Scrapy安装指南中的步骤安装所有依赖项。然而,当我尝试使用easy_install时,我得到了以下错误消息
Download error on https://pypi.python.org/simple/Scrapy/: **[Errno 10061]
No connection could be made because the target machine actively refused
it -- Some packages may not be found!**
Couldn't find index page for