Scrapyd 日志输出定时清理

现在维护着一个新浪微博爬虫,爬取量已经5亿+,使用了Scrapyd部署分布式。

Scrapyd运行时会输出日志到本地,导致日志文件会越来越大,几十个G,这个其实就是Scrapy控制台的输出。但是这个日志其实有用的部分也就是最后那几百行而已,如果出错,去日志查看下出错信息就好了。

所以现在可以写一个脚本,来定时更新日志文件,将最后的100行保存下来就好了。

Scrapyd默认的日志目录是在用户文件夹下的logs目录。

所以在这里我们指定dir=~/logs

新建bash脚本,内容如下:

#!/bin/sh

clean() {
  for file in $1/*
  do
    if [ -d $file ]
    then
      clean $file
    else
      echo $file
      temp=$(tail -100 $file)
      echo "$temp" > $file
    fi
  done
}

dir=~/logs
clean $dir

新建这样的一个脚本,然后命名为 clean.sh,我的直接放在了用户文件夹下。

然后crontab创建定时任务。

执行

crontab -e

我们想要一分钟清理一次日志文件。

输入

*/1 * * * * /bin/sh ~/clean.sh

然后退出之后,crontab就可以每隔一分钟执行一次clean.sh,清理日志了。

这样我们就不怕日志文件大量占用主机空间啦~

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏网络

摸金Redis漏洞

摘要:漏洞可以参考乌云案例 ? 1.Redis漏洞基本信息漏洞名称:Redis服务器远程执行漏洞漏洞详情:Redis因配置不当可以无密码登录,导致未授权访问。 ...

2265
来自专栏IMWeb前端团队

服务器操作规范(初稿)

本文作者:IMWeb moonye 原文出处:IMWeb社区 未经同意,禁止转载 服务器操作规范(初稿) 一切操作都需要在确保安全的前提下进行 安全规...

4128
来自专栏张戈的专栏

Linux系统chmod误操作目录权限恢复方法

部门刚上线了一个新系统,发现一个 BUG,于是开发直接上机器调试,他认为是文件目录权限不够的问题,于是想用 chmod -R 777 先给这个程序目录全部权限试...

4698
来自专栏程序小工

PHP扩展功能--发送邮件

914
来自专栏Ryan Miao

Linux用户和组管理,添加修改用户,添加修改组,加入组,移除组

1011
来自专栏编程

20条最最常用的Linux命令讲解

推荐阅读 微服务: springboot系列教程学习 源码:Javaweb练手项目源码下载 调优:十五篇好文回顾 面试笔试:面试笔试整理系列 玩过Linux的人...

1636
来自专栏地方网络工作室的专栏

打造前端 Deepin Linux 工作环境——配置静态服务器

打造前端 Deepin Linux 工作环境——配置静态服务器 我们前面虽然已经安装了一个 xampp 的集成服务器环境,但是这个东西实在是太重了。一般情况下,...

2028
来自专栏云计算教程系列

如何在Ubuntu 14.04上使用Nginx和Php-fpm安全地托管多个网站

众所周知,LEMP堆栈(Linux,nginx,MySQL,PHP)为运行PHP站点提供了无与伦比的速度和可靠性。但是,这种流行的堆栈的其他特性,如安全性和隔离...

802
来自专栏性能与架构

如何保证redis的安全?

redis的作者的理念是‘简洁为美’,所以并没有为redis设计复杂的安全配置 redis需要运行在安全的环境下,要做好redis外部的安全工作,例如不使用re...

33714
来自专栏散尽浮华

更换Ubuntu源为国内源的操作记录

我们都知道,Ubuntu的官方源对于国内用户来说是比较慢的,可以将它的源换成国内的源(比如阿里源),这样用起来就很快了。下面记录下更换操作: 首先了解下/etc...

3597

扫码关注云+社区