作为熟悉Scrapy的学习实验,我正在编写一个刮板,它检查HTML页面的所有链接,并报告指向它们的HTTP请求的状态代码。事实上,在我的项目定义中,我有一个项字段,即parent_url,作为元数据处理--也就是说,我不打算在刮板的输出中显示它。
parent_url是在LinkItem类中定义的,如下所示:
class LinkItem(Item):
name = Field()
url = Field()
parent_url = Field() # Identifies what URL this item was extracted from
sta
我只能假设这是在Scrapy最基本的事情之一,但我只是不知道如何去做。基本上,我刮了一个页面来获得包含本周更新的urls列表。然后,我需要逐个进入这些urls,并从它们中获取信息。目前,我有两个刮刀设置,他们完美地手动工作。因此,我首先从第一个刮板中刮取urls,然后在第二个刮板上将它们硬编码为start_urls[]。
做这件事最好的方法是什么?它是否像调用刮板文件中的另一个函数一样简单,该函数接受urls列表并在那里进行抓取?
这是获取urls列表的刮板:
class MySpider(scrapy.Spider):
name = "myspider"
s
import praw
def get_data_reddit(search):
username=""
password=""
r = praw.Reddit(user_agent='')
r.login(username,password,disable_warning=True)
posts=r.search(search, subreddit=None,sort=None, syntax=None,period=None,limit=None)
title=[]
for post
我安装了库伯内特斯,一切看起来都很好,我想。(请注意,这些都是在编辑下面的文件后的输出,然后更改为NodePort)
sudo kubectl get deployment kubernetes-dashboard -n kubernetes-dashboard
NAME READY UP-TO-DATE AVAILABLE AGE
kubernetes-dashboard 1/1 1 1 85m
和
sudo kubectl describe service kubernetes-dashb
我正在编写一个应用程序,它可以抓取genius.com,向用户显示前十首歌曲。然后,用户可以选择一首歌曲来查看歌词。
我想知道如何使用在刮板类中的方法中的cli类中收集的用户输入。
现在我有一部分刮板课外的刮擦,但我想要一个明确的责任分工。
下面是我代码的一部分:
Class CLI
def get_user_song
chosen_song = gets.strip.to_i
if chosen_song > 10 || chosen_song < 1
puts "Only the hits! Choose a number from 1-10."
我有一个刮板,在调用http请求和解析之前,我想检查url。url可能是None,因为它是调用的输入arg:
def start_requests(self):
# url as input to system
if url:
yield scrapy.Request(url, callback=self.parse)
从文档中,start_request函数必须返回可迭代的请求。如果url是None,则上述代码不返回任何项。这对刮痕不好吗?