干杯!我必须在我的rails后端的一个命名空间中使用不同的资源:
namespace :api, defaults: { format: :json } do
resources :users, only: [:show] do
collection do
get 'profile'
end
end
resource :music, only: [], controller: 'music' do
collection do
get 'search'
我对python和web抓取很陌生,我想知道是否有可能用刮伤从产品页面中抓取。
示例:我在amazon.com上搜索监视器,我希望scrapy转到每个产品页面并从那里刮取,而不是只是从搜索结果页面中抓取数据。
我读过一些关于xpath的文章,但我不确定是否可以使用这个方法,而且我发现的所有其他资源似乎都在使用其他东西,比如漂亮的汤等等。我正确地拥有了一个从搜索结果页面中抓取的刮擦项目,但是我想将它改进为从产品页面中刮取。
编辑:
以下是我根据您的建议修改的spider.py:
class TestSpiderSpider(scrapy.Spider):
name = 'testscra
我正在尝试抓取一个网站,我正在使用python中的Tor模块来生成代理,然后使用requests模块抓取网站。但是,带有代理的请求模块由网站识别,并返回一个api页面(带有显示一些api信息的消息的html)。但是,当我使用没有代理的请求(使用我的原始ip地址)时,我得到了正确的响应。我的问题是:为什么网站如何正确识别来自代理的呼叫必须被阻止,并且来自原始ip (我当前的ip)必须被接受。
import requests
from stem import Signal
from stem.control import Controller
def renew_connection():