linux 爬虫命令 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

在ubuntu的后台运行时，爬虫停止。

、

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。因为我使用了Linux命令这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。或者nohup命令有限制时间？非常感谢。

浏览 1提问于2014-05-20得票数 0

回答已采纳

1回答

gem安装失败

、

我试图通过使用gem命令安装instagram爬虫：但我收到以下错误：构建本机扩展。这需要一段时间..。错误:安装instagram爬虫时出错:错误:无法构建创业板本机扩展。登录到/var/lib/gems/2.5.0/extensions/x86_64-linux/2.5.0/nokogiri-1.10.1/gem_make.out的结果

浏览 0提问于2019-02-05得票数 0

1回答

scrapyd deploy显示0个蜘蛛

、

我运行了以下命令来部署项目：然后我得到了下面的o/p：$cat scrapy.cfg$scrapy deploy scrapysite -p scrapBib'build/lib.linux-x86_64-2.7' does not exis

浏览 2提问于2012-08-29得票数 5

回答已采纳

1回答

如何在一个python脚本中运行不同的scrapy项目

、、

我是Scrapy的新手，在同一个脚本中调用多个爬虫项目时遇到了一些困难。我有三个抓取项目，分别抓取不同的网页，并将数据存储到SQLite中。但是我不知道如何使用一个Python脚本来管理这些项目。

浏览 3提问于2016-04-21得票数 0

3回答

如何从另一个网站“抓取”内容

、

我的一个朋友问我这个问题，我无法回答。它的工作原理是这样的，你像something.com这样进入你的网站，然后我们的网站抓取该网站上的内容，比如图片，然后所有这些都上传到我们的网站上。然后，即使支持something.com的服务器宕机，人们也可以在我们的site.com/omething.com上查看该站点的精确副本。

浏览 2提问于2010-08-01得票数 0

回答已采纳

1回答

我每小时运行一个用PHP编写的爬虫程序和cron作业。当一切按预期进行时，脚本会自动退出。然而，由于某些原因，有时它会陷入无限循环。它变得更糟，因为我使用一个锁文件来避免重复运行，当爬虫被卡住时，它永远不会再运行，直到它手动杀死它( ps aux -> kill )到目前为止，我最好的想法是创建一个包含所有必要命令的小批处理文件，然后使用cron调用该批处理，而不是直接使用php脚本。我说的对吗?命令应该是什

浏览 3提问于2013-04-02得票数 2

回答已采纳

1回答

如何将AWS Crawler配置导出到JSON (或类似文件)并签入到源代码管理？

、、

我的团队已经在AWS Glue中开发了多个爬虫程序来扫描数据和编目模式。我希望检查这些爬虫到我们的源码控制，但我无法找到这样做的方法。我是否可以将爬行器导出为JSON或XML，以便能够检入该文件？

浏览 20提问于2020-04-28得票数 1

1回答

在Linux服务器上使用Selenium运行Scrapy Web Crawler

、、、、

我用scrapy和selenium(python)开发了一个网络爬虫。它可以在我的本地成功运行。我很好奇，我可以把我的整个爬虫项目上传到我的linux服务器上，然后像在本地一样运行吗？只有一个问题是在我的本地，当程序运行时，它会打开浏览器，模仿人类的动作，但在linux服务器上，就像你知道的，我们没有浏览器可以打开。所以我们可以这样做吗？

浏览 1提问于2016-02-26得票数 0

2回答

google +1按钮上的红色三角形

、、、、

我的GooglePlu +1按钮不工作。它是由Liferay的JSP页面生成的。计数不会增加。没有任何错误信息出现在其他地方，包括谷歌Chrome控制台。 <% plusOneDisplayStyle = "tall"; }

浏览 2提问于2013-12-08得票数 1

1回答

获取浏览器呈现的html+javascript

、

我需要一个命令行工具(或Javascript/PHP，但我认为命令行是唯一的方法)来渲染和获得URL的渲染内容，但重要的是我需要渲染的Javascript不仅仅是CSS/Html/图像。例如，像"renderengine outputfile.html“这样的命令和网页的内容(解析后的html和执行的javascript )是保存在outputfile.html中的。我需要这个，因为我需要获取像grooveshark这样的完整javascript网站的结果，该网站全部使用javascript

浏览 1提问于2013-09-10得票数 6

回答已采纳

1回答

如何判断Apache是否按预期使用了我的.htaccess？

、

X-Robots-Tag "noindex, nofollow" 我知道apache正在正常运行并读取我的.htaccess文件，因为我可以完全阻止对该文件的访问，但我不能断定上面的命令是否有效谷歌网站管理员工具声称爬虫仍然可以看到pdf，但它们似乎只用于robots.txt。有没有第三方工具(linux版)可以用来检查meta标签？

浏览 0提问于2012-04-13得票数 2

回答已采纳

1回答

在命令行中运行ActiveX控件？

、

我正在写一个网络爬虫。不幸的是，要爬行的站点非常旧，并且它使用了一些ActiveX控件。我希望我的爬虫在命令行中运行，或者至少不加载整个Internet Explorer。有没有可能在命令行中运行ActiveX控件？

浏览 1提问于2014-12-25得票数 0

1回答

AWS Boto启动实例，部署Docker映像，运行和终止

、、、

我有一个网络爬虫，是一个码头形象。我想使用boto创建一个EC2实例，部署我的爬虫，运行这个爬虫，然后在它完成后终止这个实例。使用相同的SSH连接来运行我的命令来启动爬虫我真的需要使用像Fabric这样的工具来对我的实例进行SSH并运行命令吗？

浏览 0提问于2018-03-19得票数 2

2回答

去缓存DNS查找吗？

、、

我正在构建一个测试爬虫，并且想知道Go (golang)是否缓存DNS查询。在中，我没有看到任何关于缓存的内容。这似乎是一个重要的事情添加到任何爬虫，以防止许多额外的DNS查询。如果没有，那么debian/ubuntu/linux、windows或达尔文/OSX在网络级别的缓存会受益吗？

浏览 8提问于2016-10-26得票数 13

回答已采纳

1回答

运行Android Marketplace Crawler ('hg‘目录？)

、、、

我在弄清楚如何运行Android Marketplace Crawler时遇到了麻烦：hgclone https://code.google.com/p/android-marketplace-crawler/ 我该如何运行这个命令呢？

浏览 1提问于2012-06-08得票数 1

回答已采纳

1回答

python计划，根据os时间每30分钟执行一次

、

我使用PythonSchedul进度表每30分钟运行一次爬虫，我希望我的爬虫每隔30分钟运行一次，这个间隔是根据系统的时间计算的(例如mac、windows、linux)。

浏览 5提问于2022-06-08得票数 0

2回答

ASP.NET内核中的异步任务

、、、

我需要运行我的爬虫从我的网络管理。我有两个想法要做：爬虫将是我的网站的一部分，我会在后台运行它。我觉得这是个更好的解决办法。应用程序用C#编写，在Linux上使用.NET内核。

浏览 3提问于2016-06-11得票数 0

1回答

Solr将数据从“爬行器”核心复制到“搜索”核心

、

我们正在寻找一个Solr 4.9设置，其中我们有一个非常简单的爬虫清除和加载一个“爬虫”核心，然后触发一个数据副本到“搜索”核心时，爬行完成。这样做的目的是，我们的爬虫非常简单，不真正跟踪文档的方式，将有助于进行更新和删除。基本上，爬虫将清除整个“爬虫”核心，撕毁大约50k个文档(提交1000多个文档)，然后触发一些东西将数据复制到另一个“搜索”核心。假设我们必须重新启动搜索核心，如何通过命令行或代码实现这一点？

浏览 9提问于2014-08-25得票数 0

回答已采纳

2回答

Googlebot与“Googlebot +1共享按钮机器人”？

、、、

站点设置<meta name="fragment" content="!">使用Fetch作为Google工具，在Fetch状态页面中，我可以看到我用来更新og:title、og: jQuery和og:description的jQuery已经执行，默认值也被替换了。一切看起来都很好，如果我在URL上移动鼠标，屏幕截图是正确的。但

浏览 2提问于2013-10-17得票数 0

回答已采纳

1回答