我有一个破烂的代码,应该能够采取电话和地址从一个网页中的表格:
import scrapy
class PeopleSpider(scrapy.Spider):
name="People"
start_urls=[
'http://canada411.yellowpages.ca/search/si/1/519-896-7080/',
]
def parse(self,response):
for people in response.css("div.person-search__table--row"):
yield
来自非Java背景的Scala给我带来了广泛的困难,包括这一点。
scala> class A
defined class A
scala> class B extends A
defined class B
scala> val a = new A
a: A = A@2e893a4a
scala> val b = new B
b: B = B@3a47c130
scala> a.asInstanceOf[B]
java.lang.ClassCastException: A cannot be cast to B
...
scala>
我使用Python和Scrapy来回答这个问题。
我试图抓取网页A,它包含指向网页的链接列表-- B1、B2、B3、.每一个B页面都包含一个指向另一个页面的链接,C1、C2、C3、.,其中包含一个图像。
所以,使用Scrapy,在伪代码中的思想是:
links = getlinks(A)
for link in links:
B = getpage(link)
C = getpage(B)
image = getimage(C)
然而,当我试图在Scrapy中解析多个页面时,我遇到了一个问题。这是我的代码:
def parse(self, response):