我是python的新手,从今年夏天开始断断续续地自学。我正在阅读scrapy教程,偶尔阅读更多关于html/xml的内容来帮助我理解scrapy。我自己的项目是模仿scrapy教程,以便抓取。我想得到一个线程标题的列表以及线程的网址,应该是简单的!
我的问题在于不理解xpath,我猜也不理解html。当查看gamefaqs站点的源代码时,我不确定要查找什么才能拉出链接和标题。我想说的是,只需查看锚点标记并抓取文本,但我对如何操作感到困惑。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSele
我正在从他们的学习(一个网络爬行框架)。
通过以下示例和文档,我创建了我的爬行器,以便使用站点地图抓取数据
from scrapy.contrib.spiders import SitemapSpider
from scrapy.selector import Selector
from MyProject1.items import MyProject1Item
class MySpider(SitemapSpider):
name="myspider"
sitemap_urls = ['http://www.somesite.com/sitemap
我目前正在尝试使用Scrapy框架来简单地收集一堆URL,以便稍后存储和排序。然而,我似乎不能让URL打印或在回调时存储在文件中,无论我尝试过什么或改编自其他教程。下面是我的爬行器类在这个特定示例中要做的事情,选择一个小站点:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from crawler.items imp
我在64位Windows Vista上使用的是Python.org 2.7版。我一直在测试下面的Scrapy代码,以递归地抓取www.whoscored.com站点上的所有页面,该站点用于足球统计:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from scrapy.item import Item
from scrapy.spid
我是Scrapy的新手,我想做的是做一个爬虫,它只会跟踪给定start_urls上的HTML元素中的链接
举个例子,假设我只想让一个爬虫程序遍历start_urls设置为的AirBnB清单
我不想抓取URL中的所有链接,而是只想抓取xpath中的链接
目前,我正在使用以下代码来抓取所有的链接,我如何才能使其仅抓取//*[@id="results"]
from scrapy.selector import HtmlXPathSelector
from tutorial.items import DmozItem
from scrapy.contrib.sp
所以我在玩Scrapy,它是一组类,允许你进行web抓取,我想把一些数据放到数据库中,但我让truble在扩展scrapy库的同时导入MySQL方法。
下面是我的代码:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.http import Request
import MySQLdb
class test(BaseSpider): #if i don't extend the class the MySQL works, but the Sc
我正在使用Scrapy来抓取网站,但我想知道是否有一种方法可以将其设置为只抓取网站的博客文章(即不包括页面)?我可能会为每个站点创建特定的规则来使其工作,但是如果我需要爬行多个站点的话,这太费时了。有没有办法让一个爬虫在所有网站上通用,只抓取博客帖子?我对此表示怀疑,但我祈祷一些天才对此有个答案。
下面是我从Scrapy文档中提取的基本代码。我需要补充些什么才能让这件事奏效?
from scrapy.contrib.spiders import CrawlSpider
class MySpider(CrawlSpider):
name = 'crawlit'
我正在尝试将抓取的元素输出到一个json文件。当我选择打印出页面quotestoscrape.com的整个正文时,它成功地这样做了。但是,当我选择打印某些元素时,比如span标记或p标记,在json文件中不会显示任何抓取的项目。下面是我的抓取文件,它试图从站点quotestoscrape.com抓取span.text元素: import scrapy
class heyhey(scrapy.Spider):
name = "samuelbb"
start_urls = ["http://quotes.toscrape.com"]
de
我以前用过Scrapy抓取过几个网站,所以我很熟悉它的语法,似乎不能捕获下面的class元素: ? 这是我最近尝试的方法: import scrapy
from scrapy.selector import Selector
import black
class PeopleperhourSpider(scrapy.Spider):
name = 'peopleperhour'
start_urls = ['https://www.peopleperhour.com/hire-freelancers/technology-programming&
我正在迁移到Windows,并希望让Scrapy与Pycharm一起工作。我尝试添加以下内容:
from scrapy.cmdline import execute
以及更改- /Library/Python/2.7/site-packages/scrapy/cmdline.py. It did not like this.
我的输出如下所示-
我也尝试过:
from scrapy import cmdline
cmdline.execute("scrapy crawl spider".split())
以及将"script“参数设置为/path_to_pr
当涉及到Scrapy时,我是一个新手,多亏了文档,我了解底层的基本抓取和爬行操作。然而,我在登录网站时遇到了困难。下面是我的代码:
test.py
import scrapy
from scrapy.http import FormRequest
from scrapy.utils.response import open_in_browser
class Test_spider(scrapy.Spider):
"""
Log into the provided site with Scrapy
"""
nam
当我运行我的抓取器时,它从一个站点抓取大约200条记录,而这个站点包含大约250条记录。我找不出我在创建它时所犯的任何错误。任何帮助都将不胜感激。
"items.py“包括:
import scrapy
class WiseowlItem(scrapy.Item):
Name = scrapy.Field()
Url= scrapy.Field()
名为"wiseowlsp.py“的爬虫包括:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextracto
我正在尝试测试抓取网页的Scrapy,我不明白为什么我的爬虫只抓取一个页面,我尝试评论规则和allowed_domains都没有成功。我想我遗漏了一些愚蠢的东西如果能帮上忙我会很感激的。
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.spider import BaseSpider
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
class NYSpider(CrawlSpider):
name = "ny