我有一个破烂的代码,应该能够采取电话和地址从一个网页中的表格:
import scrapy
class PeopleSpider(scrapy.Spider):
name="People"
start_urls=[
'http://canada411.yellowpages.ca/search/si/1/519-896-7080/',
]
def parse(self,response):
for people in response.css("div.person-search__table--row"):
yield
我需要使用我的函数parsePage作为回调请求链接,我从网站爬行。但是,请求只发送一次到第一个链接,而我没有得到响应。
这是我的代码:
class diploma(CrawlSpider):
name = "diploma"
allowed_domains="pikabu.ru"
start_urls = [
"https://pikabu.ru/hot"
]
def parse(self, response):
for sel in response.xpath("//div[@class='stories-f
我用python编写了一个脚本,使用Scrapy通过代理向网页发送请求,而不更改settings.py或DOWNLOADER_MIDDLEWARES中的任何内容。现在效果很好。但是,我唯一不能使用的就是创建一个代理列表,这样如果其中一个失败了,另一个就会被使用。我如何调整这个部分的os.environ["http_proxy"] = "http://176.58.125.65:80",以得到一个一个的代理列表,因为它只支持一个。在这方面的任何帮助都将受到高度赞赏。
这就是我到目前为止尝试过的(工作):
import scrapy, os
from scrapy.
我想让我的蜘蛛抓取每个人的“追随者”和“追随者”的数量。目前,它只给出了几千个结果中的6个。怎样才能得到完整的结果?
"items.py“包括:
import scrapy
class HouzzItem(scrapy.Item):
Following = scrapy.Field()
Follower= scrapy.Field()
名为"houzzsp.py“的爬虫包括:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import
我是Scrapy的新手,我想做的是做一个爬虫,它只会跟踪给定start_urls上的HTML元素中的链接
举个例子,假设我只想让一个爬虫程序遍历start_urls设置为的AirBnB清单
我不想抓取URL中的所有链接,而是只想抓取xpath中的链接
目前,我正在使用以下代码来抓取所有的链接,我如何才能使其仅抓取//*[@id="results"]
from scrapy.selector import HtmlXPathSelector
from tutorial.items import DmozItem
from scrapy.contrib.sp
gaoyaqiu:git gaoyaqiu$ scrapy
Traceback (most recent call last):
File /usr/local/bin/scrapy, line 7, in <module>
from scrapy.cmdline import execute
File /Library/Python/2.7/site-packages/scrapy/cmdline.py, line 9, in <module>
from scrapy.crawler import CrawlerProcess
F
我的蜘蛛长得像这样
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.selector import Selector
from craigslist_sample.items import CraigslistSampleItem
class MySpider(CrawlSpider):
name = "craig"
# allowed_domains = ["support.t-
我的第一个问题是:)
我试着在我的学校网站上搜索所有可能的网页。但是我不能把链接放到文本文件中。我有正确的权限,所以这不是问题所在。
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
cl
我试图建立一个基本的抓取爬行我的网站,并提取我的网站的所有网页网址。我认为这会很容易。
下面是我的items.py,它是从教程中复制的:
from scrapy.item import Item, Field
class Website(Item):
name = Field()
description = Field()
url = Field()
这是我的蜘蛛,从教程中取名为example.py。
from scrapy.spiders import Spider
from scrapy.selector import Selector
from cspenn.i
我试图让Scrapy刮本地文件,而不是使用HTTPS的URL网站。我发现了一些与robots.txt文件相关的错误:
2020-07-13 23:58:43 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET file:///robots.txt> (failed 3 times): [Errno 2] No such file or directory: '/robots.txt'
2020-07-13 23:58:43 [scrapy.downloadermiddlewares.ro
我一直在尝试从网站上抓取数据。我想从一些我不知道名字的网站上的老师那里得到信息。
每个老师在网站上都有一个遵循一定规律的页面。举个例子,这个老师Lois Bank存储在:。所以模式是老师的名字,斜杠,一个数字,破折号t。
在我尝试使用CrawlSpider使用正则表达式从主页爬行之前,因为我试图访问的页面没有链接到主页,所以它不起作用,访问它们的唯一方法是在搜索框中搜索老师的名字。
我试着写了下面的爬虫,但它不能工作:
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml im
我是python的新手,从今年夏天开始断断续续地自学。我正在阅读scrapy教程,偶尔阅读更多关于html/xml的内容来帮助我理解scrapy。我自己的项目是模仿scrapy教程,以便抓取。我想得到一个线程标题的列表以及线程的网址,应该是简单的!
我的问题在于不理解xpath,我猜也不理解html。当查看gamefaqs站点的源代码时,我不确定要查找什么才能拉出链接和标题。我想说的是,只需查看锚点标记并抓取文本,但我对如何操作感到困惑。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSele