为什么我的刮板显示'none‘作为输出？_启动我的刮板后，我没有得到输出_为什么在python中我的函数的输出显示为'None‘？ - 腾讯云开发者社区

、、

我有一个刮板，它刮一个网站(用python编写)。在抓取站点的同时，那些即将用CSV编写的打印行。刮板是用Python编写的，现在我想通过PHP代码来执行它。我的问题是如何打印由python代码打印的每一行。我使用了exec函数，但它不是我的使用，并给出输出后，执行所有的程序。是这样的；是否可以在通过PHP执行python输出时打印它。

浏览 14提问于2012-12-09得票数 10

1回答

FEED_EXPORT_ENCODING选项不适用于Scrapyd中的项文件

、、、

我正在刮中文网站。我有过 FEED_EXPORT_ENCODING='utf-8' 在settings.py文件中。如果我用刮刀 scrapy crawl myscraper -o output.json 然后输出文件显示正确的中文。但是，如果我通过Scrapyd启动刮板，那么在http://my-website:6800/jobs中创建的项目就没有编码，也不正确。为什么FEED_EXPORT_ENCODING='utf-8'不使用Scrapyd？然后我设置了FEED_URI='files/output.json'，然后通过Scrapy

浏览 2提问于2017-05-14得票数 1

2回答

如何指示Scrapy不序列化项目字段？

、

作为熟悉Scrapy的学习实验，我正在编写一个刮板，它检查HTML页面的所有链接，并报告指向它们的HTTP请求的状态代码。事实上，在我的项目定义中，我有一个项字段，即parent_url，作为元数据处理--也就是说，我不打算在刮板的输出中显示它。 parent_url是在LinkItem类中定义的，如下所示： class LinkItem(Item): name = Field() url = Field() parent_url = Field() # Identifies what URL this item was extracted from sta

浏览 0提问于2017-08-30得票数 0

1回答

将网页数据发送到只能从网页上运行的JavaScript

、、、、

我正在做一个铬的扩展，注入JavaScript到一个特定的论坛网站。当您在论坛上查看个人资料时，JavaScript使用jQuery向网页添加一个按钮。每个配置文件页面上都有一个链接，可以显示论坛上所有该配置文件的帖子。jQuery添加的按钮(通过chrome扩展)应该使用已经在每个配置文件页面上的“显示最后的帖子”链接来浏览配置文件的最后一篇文章，并找到实际上是新主题的帖子，而不仅仅是对论坛上其他主题的回复。chrome扩展的目的是显示概要文件的所有最后主题。问题是，我用来抓取网页的Node.js代码不能在网页上下文中运行。我认为它不起作用，因为它使用节点模块'request‘和&

浏览 3提问于2014-09-29得票数 0

1回答

每天运行Scrapy并跟踪数据中的更改

所以我已经用Scrapy写了我的第一个刮板，我在接下来的步骤中遇到了一些麻烦。我想每天运行刮板，可能是使用cron，并跟踪我抓取的值的变化。当我导出到json或csv文件，然后再次运行刮板程序时，新数据被转储到同一文件中。有没有一种方法可以把每个抓取的导出文件放到一个单独的文件中？任何见解都会很棒，谢谢！

浏览 1提问于2014-01-17得票数 1

2回答

在开放源码项目的测试中模拟外部端点

、、

我正在开发一个npm包刮板库。我想添加集成测试，但我不确定如何最好地处理它。我有一个示例文件夹，它显示了刮板是如何与现实世界的站点一起工作的，我想向每个站点添加集成测试，以证明它们是有效的。我想使用一个名为诺克的库，它可以记录请求并将其存储为每个外部端点，但我不确定是否能够在开放源码库中存储固定(本质上是html文件)。类似地，我想存储刮板从站点返回的快照，但我不知道是否可以在开源存储库中存储从网站解析的数据的快照。以最普遍的方式来问，在开源库中存储被刮掉的网站内容是否令人不悦？

浏览 0提问于2018-12-26得票数 1

回答已采纳

2回答

将Facebook刮刀器重定向到/?_escaped_fragment_=，HTML5历史记录URL(没有hashbang)用于AJAX内容

、、

如果您使用hashbang URL，一个la /#!/path/to/content，Facebook刮板(以及Googlebot)将自动转发到/?_escaped_fragment_=/path/to/content，在那里您可以呈现内容服务器端供刮板使用。对于谷歌，如果包含片段元标记(<meta name="fragment" content="!">)，您可以使用HTML5历史风格的URL (例如，简单的/path/to/content)，并且它仍然知道如何重定向到转义片段URL。 Facebook似乎不支持这一点。它将重定向到您将og:ur

浏览 0提问于2013-11-23得票数 3

回答已采纳

1回答

建筑.刮板和orm类的关系

、、

考虑以下应用程序结构。 📷 刮板类从页面中提取必要的信息，我想将它保存到DB中。 ORM类是sequelize.js的包装器。它建立到数据库的连接，加载模型，与数据库同步。 app.js在ORM中，然后在刮板类中。我的问题是:刮板类应该如何将收集到的数据刷新到数据库？它应该导入ORM (连接)，并有一个刷新方法，该方法检查数据是否已经被刮过。如果没有，那就保存它。有件事告诉我，这不应该是刮板班的工作。

浏览 0提问于2017-07-10得票数 0

回答已采纳

1回答

我能从命令行中运行水手控制器方法吗？

、

我正在用Sailsjs编写一个应用程序，其中包括一个刮板。目前，我正在使用默认路由从浏览器调用刮板函数，但我认为最好能私下从终端调用所需的方法。有可能这样做吗？

浏览 2提问于2014-04-14得票数 2

回答已采纳

1回答

当我把带邮差的JSON发送到MongoDB时，我如何解决这个错误？

、、

我正在测试我编写的输出JSON的python刮板。JSON中的一些变量暂时将为空，稍后将在数据库中进行操作。因此，我需要将它们声明为null。但我在尝试将JSON放入Postman并将其发送到数据库时出现错误。我正在做的是运行我的scraper，从它的输出复制一个样例JSON对象，将其粘贴到Content-Type设置为application/json的Postman帖子的正文中，并将其发送到Mongo上的测试数据库。我尝试过的事情和结果： variableName = "" Error: 500 Internal Server Error Object referenc

浏览 11提问于2020-10-20得票数 0

回答已采纳

1回答

如何在Java中刮取udp BitTorrent跟踪器？

、、

我发送一个刮包，播种机，下载机和水蛭总是返回为0。这是我最初的连接和刮板代码。 public void scrape() { for (final String infohash : infoHashes) { hashes += infohash; } outStream.writeByte(hashes.getBytes()); } 例如，我的输出是 3617635676834215396 %0

浏览 2提问于2015-12-15得票数 1

回答已采纳

1回答

CI/CD保持生产中的最新图像

、、、

我有一个刮板服务，它调用一个docker run作为停靠程序的子进程-包含刮板应用程序/代码的图像。目前，我必须将ssh放到集群中，以便在对任何刮板应用程序进行更新时手动重建映像。我的问题是，什么是最适合的方式来集成到CI/CD流中。目前，我有步骤来构建映像并将其推送到注册表中，但是如何将更新自动化到集群/服务器上，或者最好的方法是什么呢？

浏览 0提问于2018-04-15得票数 1

回答已采纳

2回答

美丽的汤有时会起作用

、

在这里，我有一个非常简单的搜索器，用于表示llbean上的项的名称。 import urllib2 from bs4 import BeautifulSoup def mainTest(): url = "http://www.llbean.com/llb/shop/43281?feat=506697-GN2&page=women-s-l-l-bean-boots-10-shearling-lined&attrValue_0=Brown/Brown&productId=732934" page=urllib2.urlopen(url)

浏览 1提问于2015-11-02得票数 0

1回答

无法抓取类

、、、

我目前正在尝试使用python制作一个网络刮板。我的目标是让我的网络刮板找到一个股票的名称和价格。下面是我的代码： import requests from bs4 import BeautifulSoup page = requests.get('https://finance.yahoo.com/quote/MA?p=MA&.tsrc=fin-srch') soup = BeautifulSoup(page.content, "html.parser") stock_name = soup.find({ "class" :

浏览 0提问于2020-01-14得票数 0

1回答

Chrome显示不同的html，然后是我的RequestJS & CheerioJS应用程序

、、、

我的刮板应用程序正在搜索一个Vimeo URL，它附带了一个查询字符串，它是 'http://vimeo.com/search?q=angularjs' 当我在Chrome上加载这个URL时，我可以看到一些元素没有显示在我的request()中，这个URL来自我的刮板。我可以用Chrome和刮板加载的HTML似乎是静态元素，比如在导航栏和页脚中找到的HTML。当我试图访问Vimeo处理查询字符串search?q=angularjs所生成的任何元素时，我的刮板将无法访问显示在Chrome中的视频库网格。到目前为止，这是我的刮刀： var request = require(

浏览 1提问于2013-09-28得票数 0

1回答

刮刮-刮擦时发现的刮擦链接

、

我只能假设这是在Scrapy最基本的事情之一，但我只是不知道如何去做。基本上，我刮了一个页面来获得包含本周更新的urls列表。然后，我需要逐个进入这些urls，并从它们中获取信息。目前，我有两个刮刀设置，他们完美地手动工作。因此，我首先从第一个刮板中刮取urls，然后在第二个刮板上将它们硬编码为start_urls[]。做这件事最好的方法是什么？它是否像调用刮板文件中的另一个函数一样简单，该函数接受urls列表并在那里进行抓取？这是获取urls列表的刮板： class MySpider(scrapy.Spider): name = "myspider" s

浏览 3提问于2016-11-25得票数 0

回答已采纳

2回答

用钢轨刮擦的耙作业

、、、

我开始写刮刀从不同的网站获取数据。我在一个rake文件中构建了第一个刮刀器，现在我开始编写第二个rake文件来从第二个站点获取数据。现在，我正在编写一个特定于我感兴趣的每个站点的刮板器(而不是试图构建一个通用的刮板)。我有三个问题：写rake任务对我来说是个好选择吗？我是否应该考虑其他选择？如何向rake文件中添加函数/方法？(对不起，非常愚蠢的问题，但我不知道如何构造我的代码.因此，现在在一个长方法中只有500行不间断代码)，例如，我想要一个“get_description(节)”方法，它从页面返回描述。方法可能是不同的，这取决于我正在刮的网站。如何用RSpec测试我的任

浏览 3提问于2010-12-09得票数 2

回答已采纳

1回答

为什么BeautifulSoup没有在HTML中显示标题

、、

我正在制作一个简单的刮板，看看我是否可以从我所做的一个输入中获得所需的值。它总是显示None作为答案，所以我用更简单的方法签入了html中的<>。 from bs4 import BeautifulSoup # parsing r = open("C:/Python27/Pruebas/pruebahtml.html") print(r.read()) soup = BeautifulSoup(r,"html.parser") title = soup.title print(title) r.close() 但是我仍然得到了None作为答案，我还

浏览 3提问于2015-10-02得票数 1

回答已采纳

2回答

Reddit搜索API没有给出所有结果

、、

import praw def get_data_reddit(search): username="" password="" r = praw.Reddit(user_agent='') r.login(username,password,disable_warning=True) posts=r.search(search, subreddit=None,sort=None, syntax=None,period=None,limit=None) title=[] for post

浏览 0提问于2015-06-23得票数 5

回答已采纳

1回答

刮伤-手动登录

、、、

我正在构建一个非常简单的刮板，使用刮除，以便从一组urls中刮取某个元素。然而，我必须登录到该网站，以做到这一点，我无法获得登录部分的我的刮板工作。是否可以手动登录到网站，然后让我的刮刀完成刮刮任务？

浏览 3提问于2016-06-28得票数 0

回答已采纳

1回答

我能让AngularJS为Facebook OpenGraph刮刀使用不同的控制器吗？

、、、、

我有一个AngularJS应用程序，它使用提供服务我希望我的元标签(og:title，og:description，og:image)被动态填充，以便和其他刮板(比如Slack)在社交媒体网站上发布富链接。然而，这是很棘手的，因为这些刮板在角度动态插入适当的值之前对原来的HTML页面进行了抓取。所以刮板会看到占位符值。解决这个问题的方法之一是描述。基本上:用已经填充好的og字段来填充刮板机器人静态HTML。我想这么做。但不像那个作者，我不使用apache。在http-server中，没有我知道的.m的.htaccess文件我使用和$state-provider来处理提供给应用程序的URL

浏览 2提问于2017-05-30得票数 6

1回答

Quora的HTML没有显示schema.org，但是google在问答部分显示了它们，是如何显示的？

、、、、

我正在为支持RDFa、Json和Microdata的学生制作一个刮板来阅读问答数据，但是Quora让我感到困惑。我需要了解它是如何读取的，这样我就可以在HTML问答器中阅读它，以适应这种情况。在谷歌搜索中，我看到一个QA块，但是如果我转到 URL，我就看不到任何JSON、RDFa或Microdata的证据。谷歌如何阅读quora的问答信息？我能想到的可能原因：他们只向搜索引擎用户代理显示数据。因此，在请求页面时，也许我应该将用户代理更改为刮板。谷歌自己解决了这个问题。这意味着我需要创建一些NLP解决方案来获取信息。将页面识别为问题/答案的关键词。谷歌为像quora这

浏览 11提问于2021-12-09得票数 0

回答已采纳

1回答

importXML是否也适用于需要填写字段的动态页面？

、、、、

请问，importXML也适用于动态页面吗?动态页面需要先填写一个字段才能显示信息。例如，在此页面上，我总是必须填写- dd/mm/yyyy -(例如15/03/2021)之前的日期(“”)才能显示信息。然后按下FILTRAR按钮如果会有几个足球运动员的名字，我想要抓取照片的URL，名字，运动员的情况，出版物和俱乐部的名称或者使用另一种刮板，如Web刮板或selenium更好？

浏览 0提问于2021-03-22得票数 0

1回答

当没有足够的资源时，刮伤是如何表现的？

、、、

我正在使用命令行运行多个刮板，这是一个自动化的过程。 Python : 2.7.12 刮伤: 1.4.0 操作系统: Ubuntu 16.04.4 LTS 我想知道什么时候刮刮处理这个案子内存/cpu带宽不足，无法启动刮板。刮板运行时内存/cpu带宽不足。我已经翻阅了文件，但什么也找不到。任何人回答这个问题，你不需要知道正确的答案，如果你能告诉我任何你知道的资源的总体方向，这将是有帮助的，这也将是的感激之处。

浏览 0提问于2018-10-04得票数 0

回答已采纳

1回答

Kubernetes编辑svc与编辑服务(它是在编辑同一个文件吗？)

、、

我安装了库伯内特斯，一切看起来都很好，我想。(请注意，这些都是在编辑下面的文件后的输出，然后更改为NodePort) sudo kubectl get deployment kubernetes-dashboard -n kubernetes-dashboard NAME READY UP-TO-DATE AVAILABLE AGE kubernetes-dashboard 1/1 1 1 85m 和 sudo kubectl describe service kubernetes-dashb

浏览 6提问于2021-06-24得票数 0

回答已采纳

1回答

如何用javascript创建HTML文件

、、、、

我使用网站刮板npm来刮板一个网站，我已经从网站上得到了保存在assests文件夹中的图片。现在我需要在一个新的动态html中显示图像，此脚本需要创建并显示此图像。我看到了这篇文章：，但它似乎没有帮助。如何只使用JavaScript创建超文本标记语言？创建一个真正的html文件并将其保存到本地。或者我应该使用Nodejs？将图像传递到服务器端并将图像附加到hbs？其他选择？

浏览 1提问于2018-10-25得票数 1

回答已采纳

1回答

如何在Ruby中跨类使用用户输入？

、、、

我正在编写一个应用程序，它可以抓取genius.com，向用户显示前十首歌曲。然后，用户可以选择一首歌曲来查看歌词。我想知道如何使用在刮板类中的方法中的cli类中收集的用户输入。现在我有一部分刮板课外的刮擦，但我想要一个明确的责任分工。下面是我代码的一部分： Class CLI def get_user_song chosen_song = gets.strip.to_i if chosen_song > 10 || chosen_song < 1 puts "Only the hits! Choose a number from 1-10."

浏览 0提问于2020-09-13得票数 1

回答已采纳

1回答

无法使用BeautifulSoup从网站上的模块中选择链接

、、、

我已经建立了一个刮板从公司的网站(我有许可)提取链接，然而，当我试图添加的网址，工作是张贴，我只能检索一些链接。似乎作业被存储在某种模块中，在这种模块中，我无法使用刮刀访问它们。 html parbase部分是我似乎无法访问的模块的html名称。问题为什么刮板不能从我提供的链接中提取职位的网址呢？链接到何塞张贴在这里：刮板机规范 import requests from bs4 import BeautifulSoup url = "http://www.pwc.dk/da/karriere/ledige-stillinger.html" r = requests

浏览 1提问于2017-09-10得票数 1

2回答

如何使用不同的参数触发相同的云运行作业/服务？

、、

我试着用云运行来实现刮板刮板的效果。其主要思想是，每20分钟云调度程序cron应该触发网络刮板，并从不同的站点获取数据。所有站点都有相同的结构，所以我想使用相同的代码，并行执行刮取作业，比如scrapy crawl scraper -a site=www.site1.com和scrapy crawl scraper -a site=www.site2.com。我已经部署了一个版本的刮板，但它只能执行scrapy crawl scraper。我如何在执行命令的站点更改时做到这一点？另外，我应该使用云运行作业还是服务？

浏览 10提问于2022-10-01得票数 0

回答已采纳

1回答

刮擦的start_request会不会屈服或退却？

、

我有一个刮板，在调用http请求和解析之前，我想检查url。url可能是None，因为它是调用的输入arg： def start_requests(self): # url as input to system if url: yield scrapy.Request(url, callback=self.parse) 从文档中，start_request函数必须返回可迭代的请求。如果url是None，则上述代码不返回任何项。这对刮痕不好吗？

浏览 1提问于2022-10-31得票数 0

1回答

网络刮取函数getPageNumber误差

、、

我正在构建一个网页刮板，并试图了解为什么我的getPage号码功能不工作。这个函数昨晚起作用了，今晚我得到了正确的输出。 library(rvest) library(RCurl) library(XML) library(stringr) getPageNumber <- function(URL) { parsedDocument <- read_html(URL) results_per_page <- length(parsedDocument %>% html_nodes(".sr-list"))

浏览 1提问于2021-03-29得票数 0

回答已采纳

2回答

是否需要为每个目标站点编写抓取器？

、、、、

我是个刮东西的新手。我写了一个刮板它将擦伤 Maplin 商店。我使用Python语言和BeautifulSoup来抓取存储。我想问的是，如果我需要清理一些其他的eCommerce商店(比如亚马逊、Flipkart)，我是否需要定制我的代码，因为它们具有不同的HTML ( 和名字是不同的，另外还有其他东西)。所以，我写的刮板不适用于其他eCommerce商店。我想知道比价网站是如何从所有在线商店中抓取数据的？他们对不同的在线商店有不同的代码，还是有通用的代码？他们会研究每个在线商店的HTML模式吗？

浏览 40提问于2014-12-28得票数 7

回答已采纳

1回答

Kodi (fka Xbmc)在线记录器(otr)刮刀

我想从的中抓取录音的信息。不幸的是，可用的刮板无法处理文件格式，这就像 Django_Unchained_15.07.03_22-45_sf2_165_TVOON_DE.mpg.mp4.avi 重命名不是一个选项，因为文件名是otr的关键。我知道有一个名为的刮板，但它从未离开beta状态，似乎已经过时了。对如何正确地在科迪显示这些文件有什么建议吗？是否有人为otr编写或启动了铲运机？

浏览 1提问于2015-08-21得票数 3

回答已采纳

2回答

使用procs和块和/或动态方法将代码干涸的最佳方法

我正在写一种解析网站的方法，每个“刮板”都有自己的收集信息的方式，但是两种方法之间有很多共同的功能。差异：一个刮板程序使用Nokogiri通过css选择器打开页面。另一个刮板使用RSS提要来收集信息。相似之处：每个刮板创建一个具有以下属性的“事件”对象：标题日期描述如果我们对Nokogiri铲运机做这样的事情： event_selector = page.css(".div-class") event_selector.each_with_index do |event, index|

浏览 5提问于2014-08-18得票数 0

1回答

python-rq工作者自动关闭

、、

我正在实现python，以在队列中传递域，并使用Beautiful对其进行刮除。因此，我正在运行多个工人，以完成工作。我从现在开始了22名工人，所有22名工人都在rq仪表板上注册。但是过了一段时间，工人自己停了下来，没有在仪表板上显示。但是在webmin中，它显示所有的工作人员都在运行。爬行速度也有所下降，即工人不跑步。我试着用上级和上级来管理那个工人。在这两种情况下，工人们都会自己停下来。原因是什么？为什么工人们要自己停下来？我们能在一台服务器上启动多少名员工？同时，每当从rq仪表板中未注册员工时，失败计数就会增加。我不明白为什么？请帮我处理这个。谢谢

浏览 1提问于2016-06-23得票数 0

回答已采纳

1回答

优化抓取网站的工人人数

我感兴趣的是定期抓取一个特定的网站，该网站上有大约1亿条内容。刮板可以非常快地下载和处理项目，在50毫秒左右，但即使以这样的速度，它将需要数天完成。最明显的解决办法是使用多个刮板。然而，在某个时候，底层的the服务将变得饱和，并开始放慢速度。我想要尊重服务，而不是DDoS服务，同时尽可能高效地抓取服务。这显然是一个优化问题，但我不知道如何建模。理想情况下，我需要知道刮板的数量，以及每个刮板的目标延迟。有什么想法吗？

浏览 0提问于2018-02-15得票数 1

回答已采纳

1回答

美汤刮刀和if...else

、

我已经写了一个可以解析1个html页面的刮板，它的值在变化。这段代码必须在页面上找到单词Test。当它找到这个单词("True")时，它必须打印I find，当它是False时-打印None。但是当我运行代码时，尽管I find是假的，但它还是会打印出来。错误在哪里？ search = soup.find('Test') if search: print 'I find' else: print 'None'

浏览 1提问于2015-11-02得票数 2

2回答

scrapy shell:将结果输出到文件

、、、

我如何在刮板壳输出结果到一个文件，最好是csv？我在我的bpython shell中有一个有趣的元素列表，我可以把它们做成item。但是如何将其重定向到文件呢？

浏览 2提问于2016-12-20得票数 2

回答已采纳

2回答

如何将已收集的数据发布/放入RESTful API中

、、、

我有一个输出JSON的刮板。我想以编程的方式阅读这个输出(例如每天的输出)，并通过像Tastypie这样的RESTful API将其反序列化到我的Django模型中。在更新模型之前，我想检查是否有重复的条目/验证数据。做这件事的最佳实践和最无缝的方法是什么？ -- 刮板的JSON输出(返回结构化数据) 注意: exchange_id是Exchange模型中Exchange的外键 {“网站”：""，"exchange_id"：1，“滴答”："8002"，"full_name"："IGG公司“} Django模型 class

浏览 1提问于2013-12-26得票数 0

回答已采纳

1回答

通过bash抓取instgram followercount

、

可以创建一个脚本来输出我选择的instagram用户的关注者数量吗？我正在尝试创建一个刮板，基于的HTML源。在页面上，源代码是我需要的所有东西显示在一个页面的追随者计数。我是否必须使用APi来获取关注次数，或者是否有其他方法可以绕过它。我怎么才能得到这个号码呢？如何将其集成到我的bash脚本中？

浏览 0提问于2017-04-10得票数 0

1回答

PHP函数分解为C#，用于在开始和结束之间获取值

我正在尝试用C#编写一个刮板，问题是我已经用PHP语言做了一个刮板，但我正试着迁移到C#上。这是不是可以在C#上转换，因为我还不擅长用这种语言编码。 PHP函数： function fetchValue($string,$start,$end){ $str = explode($start,$string); $str = explode($end,$str[1]); return $str[0]; } 它所做的就是提取开头和结尾之间的第一个出现字符串。它的使用方法： $exampleString = "long live stackoverflow

浏览 36提问于2019-01-19得票数 0

回答已采纳

1回答

用于metrics2的hadoop PrometheusMetricsSink示例

、

是否有用PrometheusMetricsSink属性设置hadoopMetrics2的示例？附带的属性文件只具有FileSink、GraphiteSink和Ganglia的属性，而在propermteusmetricssink上没有任何属性。我只想让hadoop指标与prometheus兼容，这样我就可以使用prometheus刮刮来显示仪表板。如果我可以在其他apache产品(如accumulo )中使用这种方法，那就太棒了。

浏览 4提问于2022-05-20得票数 0

回答已采纳

1回答

与定制tpl.php有关的设计问题

对于我的自定义内容类型，我有一个自定义tpl.php。作为其内容的一部分，它还需要显示一个(动态)值。动态内容实际上是从我们的另一个网站上刮来的。我关心的是，是否在tpl.php中有刮板逻辑。我的理解是，tpl.php的目的是处理视图部分。让我的tpl.php包含刮擦的逻辑(不仅仅是刮擦)的缺点是什么？基本上除了渲染什么都行吗？

浏览 0提问于2015-08-28得票数 1

1回答

如何使用Hasura事件触发python脚本

、、

我目前正在构建一个自我托管的Vuejs webapp应用程序(带有帐户登录)。webapp需要是，在这里我的用户可以控制Python。例如，用户填写端点，启动刮板，查看结果，触发一个新的更深的刮板，等等。我有用于抓取的Python脚本。我已经决定用VueJS + AWS的白兰地+ Hasura来做前端我很难理解如何触发python脚本，并将结果转储到数据库中，并将其显示给前端。我确实喜欢三因素法：刮板上的数据可以是很多db条目，所以我不喜欢通过突变将它们输入到数据库中。我是否必须制作酒瓶端点才能让Hasura触发这些网络钩子？我对无服务器不熟悉。如何使我的Python脚本

浏览 4提问于2021-09-02得票数 0

回答已采纳

1回答

Azure Service Fabric中的Selenium Web驱动程序

、、、

背景信息：，我目前已经构建了一个屏幕刮板，使用Chromedriver来扫描一个网站，这只是一个控制台应用程序。我现在想将这个应用程序移动到使用，因为它在可伸缩性方面有很多好处。问题：我已经将屏幕刮板转换为使用Azure无状态服务，并且它在我的本地开发环境中运行。唯一的问题是，我不能再看到屏幕刮板互动运行，因为它不会打开一个铬浏览器，并导航到不同的页面。我知道屏幕刮板仍然在运行，因为它返回了我期望的屏幕刮擦数据。最初，我认为服务运行的用户与使用‘网络服务’帐户运行的用户一样。我使用以下代码将其更改为在自己的域用户下运行： <Principals> <Users>

浏览 0提问于2017-09-20得票数 0

1回答

使用用户定义的url和文件名构建python网络抓取器函数。

、、、、

我希望用户输入的URL和csv的名称在这个刮板。 <code>A0</code> 我的输出返回"NameError: name 'websites‘is not defined“，但这在代码中是很清楚的。我甚至尝试将其作为空列表添加到函数之前，但没有成功。

浏览 16提问于2020-11-19得票数 0

1回答

使用河马CMS进行Web抓取

、

我正在寻找网络抓取插件，如网络刮板和MyCurator，可以与河马can集成。我需要相同的功能，这是由上述插件提供，但与Hippo.Any的建议？

浏览 3提问于2016-04-22得票数 0

1回答

在python脚本中释放内存

、、、

我有一个python脚本，它可以抓取一些urls。我有一个url列表，对于每个url，我得到html，并对它执行一些逻辑操作。我使用Python2.7.6和Linux 17，肉桂64位. Problem是我用于抓取的主要对象，我为每个url实例都是这个对象，它从未从内存中释放，尽管没有引用它。由于这个问题，我的内存一直在快速增长(因为我的对象有时很大，高达50 my )。简化代码如下所示： def scrape_url(url): """ Simple helper method for scraping url :param url: ur

浏览 2提问于2016-02-11得票数 4

1回答

在EC2实例和本地Win机器之间保持文件同步的最佳方法是什么？

、、、

前提:我是个十足的新手。因此，任何温和的暗示都是非常感谢的:) 因此，我创建了一个EC2实例，并抛出了我用Python构建的刮板器。我已经设置了cronjobs来按预定时间运行我的刮刀器。每次运行时，我的刮板都会将一组结果保存到一个相对的本地文件夹中，例如(db//db1.csv、db//db2.csv等)。比方说，这些DB文件的状态非常重要，因为它们随后被用作编译API调用和维护网站的源。为了测试目的，我也想在本地的机器上运行我的刮板。所以，每当我在本地运行刮板时，我都在努力弄清楚，如何确保我有可以构建的数据库文件的最新状态--有效地编写了一个函数从我的EC2实例中下载最新的DB文件。我

浏览 0提问于2021-01-20得票数 1

回答已采纳

1回答

点击页面，然后搜索合适的链接来打开和抓取

、、

我已经看了很久了，我想知道这是否可能。我正试着从上搜集一些体育统计数据我正在使用这些用于抓取器和csv导出： import requests import re import csv from bs4 import BeautifulSoup 当刮板到达那里时，我想让它点击有最终得分的游戏(所以我可能不得不在周五、周六、周日和周一午夜自动执行刮板)。从那里，我希望抓取器点击“统计”，这将打开一个新窗口中需要抓取的URL。从那时起，最好是看完那一周的所有比赛，然后整理一下统计数据。这在Beautifulsoup中是可能的吗？我可以通过手动添加链接来抓取每个页面，然后对于输出数据

浏览 1提问于2020-10-07得票数 1