首页
学习
活动
专区
工具
TVP
发布

数据之美

专栏作者
138
文章
384252
阅读量
63
订阅数
迷之 crontab 异常:不运行、不报错、无日志
1、背景 前几天新同学入职,一不小心将跳板机上的 crontab 清空了,导致凌晨一大批任务异常,同事问了运维同学也没有备份,这一百多个任务要是恢复起来可不是件容易的事儿。还好我去年某天开始做了定时备份,每分钟一次 backup 到本地磁盘,最后很容易的将 crontab 给恢复了。 这件事情过后我也在想,一台跳板机整个部门都共用一个账号, Linux 水平和安全意识又参差不齐,其实很难避免以后还会误操作,比如一下子将 home 目录全干掉。所以我想 backup 最好不要保存在本地,于是想一条命令将其备份
用户1177713
2018-04-16
5.6K0
Ubuntu on Windows10 跨平台开发环境搭建权威指南
程序猿经常争论的一个话题是:日常开发到底 Windows 好还是 Linux 好?进而演化出另一个问题:到底选 MacBook 好还是 SurfaceBook 好? 选择 Linux 系统或者 mac 笔记本的同学最核心的理由是 Linux/Mac 开发、编译工具链比较完善,很多环境或者安装包都系统自带了,写出来的程序可以很方便的通过开发、测试与线上系统对接,开发测试效率比较高,而 Windows 下开发的同学可能需要考虑开发、测试代码的可移植性问题。就拿笔者来说,也曾经遇到过某些 java/python 
用户1177713
2018-03-29
2.7K0
手把手教你 Spark 性能调优
0、背景 上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。 看了下任务的历史运行情况,平均时间 3h 左右,而且极其不稳定,偶
用户1177713
2018-02-24
2.6K0
一千个不用 Null 的理由
港真,Null 貌似在哪里都是个头疼的问题,比如 Java 里让人头疼的 NullPointerException,为了避免猝不及防的空指针异常,千百年来程序猿们不得不在代码里小心翼翼的各种 if 判断,麻烦而又臃肿,为此 java8 引入了 Optional 来避免这一问题。 下面咱们要聊的是 MySQL 里的 null,在大量的 MySQL 优化文章和书籍里都提到了字段尽可能用NOT NULL,而不是NULL,除非特殊情况。但却都只给结论不说明原因,犹如鸡汤不给勺子一样,让不少初学者对这个结论半信半疑或
用户1177713
2018-02-24
1.2K0
MySQL 死锁与日志二三事
最近线上 MySQL 接连发生了几起数据异常,都是在凌晨爆发,由于业务场景属于典型的数据仓库型应用,白天压力较小无法复现。甚至有些异常还比较诡异,最后 root cause 分析颇费周折。那实际业务当中咱们如何能快速的定位线上 MySQL 问题,修复异常呢?下文我会根据两个实际 case,分享下相关的经验与方法。 1、Case1:部分数据更新失败 某天渠道同学反馈某报表极个别渠道数据为 0,大部分渠道数据正常。这个数据是由一个统计程序每天凌晨例行更新的,按理来说,要么全部正常,要么全部失败,那会是什么原因导
用户1177713
2018-02-24
2.7K0
线上服务 CPU 100%?一键定位 so easy!
背景 经常做后端服务开发的同学,或多或少都遇到过 CPU 负载特别高的问题。尤其是在周末或大半夜,突然群里有人反馈线上机器负载特别高,不熟悉定位流程和思路的同学可能登上服务器一通手忙脚乱,定位过程百转
用户1177713
2018-02-24
1.8K0
记一次诡异的 ssh 互信免密码登录失败
背景 因为 hadoop 环境需要 master 能免密码 ssh localhost,所以我们需要建立与本机 localhost 的互信,方法很简单: 1. ssh-keygen -t rsa #Press enter for each line 2. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 3. chmod og-wx ~/.ssh/authorized_keys 这三步执行下来就能顺利 ssh localhost 免密码登录了,但是昨天
用户1177713
2018-02-24
2.6K0
文本编辑利器Notepad++ 10个强大而又鲜为人知的特性
Notepad++ 顾名思义就是 windows 内置 Notepad 的增强版,它采用 C++ 编写,性能优秀,不仅小巧(完整安装包仅 3.8MB),功能众多,插件丰富,而且最关键的是“完全免费”!这一点比起 Editplus、UltraEdit、Sublime Text 等其它文本处理软件来说,算是个大的卖点。 说了这么多咱们言归正传,在日常的研发、数据处理过程中,免不了和各种文本、数据、代码打交道,今天就来细数 Notepad++ 10个强大而又鲜为人知的特性,教你如何快速用它处理各种文本问题,做到事
用户1177713
2018-02-24
3.7K0
CPU 100% 异常排查实践与总结
1、问题背景 昨天下午突然收到运维邮件报警,显示数据平台服务器cpu利用率达到了98.94%,而且最近一段时间一直持续在70%以上,看起来像是硬件资源到瓶颈需要扩容了,但仔细思考就会发现咱们的业务系统
用户1177713
2018-02-24
1.2K0
用户画像从入门到挖坑
背景 用户流量从搜索引擎为入口的增量时代到移动互联网普及人口红利不再的存量时代,这个变化对每个公司的获客成本,运营思路都产生了很大的影响,在流量日益枯竭,获客成本越来越高的时代,伴随着大数据、精细化运营、人工智能、机器学习等一大波新技术和概念的崛起、普及,它们之间有何关联?如今互联网产品又该如何运营、攻城略地?本文介绍的用户画像或许能带来一点思路。 1、用户画像的作用与意义 1.1 作用 用户画像承载了两个业务目标:一是如何准确的了解现有用户;二是如何在茫茫人海中通过广告营销获取类似画像特征的新用户。比如在
用户1177713
2018-02-24
3.8K0
Shell 黑科技之匿名函数实现任务并行化
shell 作为一门系统级别胶水语言,学习成本低,用起来很方便,但是缺点也显而易见:性能问题一直为人锁诟病。所以 shell 也就多用在简单的系统管理等场合,数据处理等等要求比较高的场合一般会选择 java、Python 等功能更强大、性能更好的语言。 最近用shell写了一个小函数,用来在集群间批量执行命令并返回结果: for ip in ips do ssh work@$ip "echo 1; exit" 2>/dev/null done 执行下来功能没啥问题,但是性能却一塌糊涂,6台机器执行将
用户1177713
2018-02-24
1.4K0
Hive Lock 那些事儿
0、背景 最近两天数据仓库中一张核心表遭遇了锁的问题,导致数据插入失败,影响挺大,之前一直没注意到这个问题,借此总结一下这块的知识和遇到的坑。 hive 在 0.7 版本之后开始支持并发,线上的环境默
用户1177713
2018-02-24
3.6K0
15 个简单、有趣而实用的 单行 HTTP Server
不少语言或服务开发框架都内置了简单的 Web Server 供我们方便的调试使用。比如有时候我们需要调试单个 PHP 页面而不想搭建一套完整的 PHP 环境,亦或者我们只是临时的共享一下文件而不想搭建
用户1177713
2018-02-24
2.5K0
详解 MySQL 5.7 新的权限与安全问题
1、新版 MySQL 权限问题:  问题:SQL Error (1130): Host '192.168.1.100' is not allowed to connect to this MySQL server     说明所连接的用户帐号没有远程连接的权限,只能在本机(localhost)登录。     需更改 mysql 数据库里的 user表里的 host项:把localhost改称%     mysql>use mysql;     mysql>update user set host =
用户1177713
2018-02-24
6.3K0
SSD Win8 系统盘 4K 无损对齐历险记
1、背景:为什么要 4K 对齐 簇是系统在硬盘上读写文件时的单位,是一个数据块(逻辑概念)。而扇区是硬盘划分的最小单位值,就是簇(数据块)占用的地方(物理概念)。NTFS对于大于2GB的分区,默认簇大小为8个扇区(4KB)。 绝大多数的机械硬盘默认是512字节的扇区,采用的是DRAM作为存储介质; 而机械硬盘,无论是SLC颗粒还是MLC颗粒,都属于NAND闪存存储单元。 这种硬盘的扇区是4K,这就是4K的由来。 NTFS格式有一个特性,那就是起始簇的位置!    NTFS分区起始位置不是从0开始,而是从L
用户1177713
2018-02-24
2.9K0
Linux Shell 从入门到删除根目录跑路指南
shell 作为一门 linux 下使用广泛的系统语言,语法简单,上手容易,但是想要用好,少犯错误,也不是那么容易的一件事,可谓虽是居家旅行之良药,但也是杀人灭口之利器~ 今天就来聊聊 linux 下一个常见的问题:如何避免误删目录。下文会详细的讲述不同的场景下误删目录,以及相应的解决方案。 1、变量为空导致误删文件 base_path=/usr/sbin tmp_file=`cmd_invalid` # rm -rf $base_path/$tmp_file 这种情况下如果 cmd 执行出错或者返回为空,
用户1177713
2018-02-24
2.1K0
深入分析诡异的 Excel 求和统计缺失问题
1、背景 昨天有同学在用 Excel 做数据统计时偶然发现 Excel 会少算一些数据,而且这个坑让这位同学排查了很久才确认不是自己统计程序错误而只是 Excel 简单的汇总出错。最初看到这个问题时,我也觉得好奇:历史如此悠久、普及率这么高、一流公司的产品都会有这种低级 bug?虽说历史上 Excel 也曾经出过很低级的 bug,但一般很快会被 MS 官方修复,应该属于昙花一现的 bug 才对。(比如 Excel 2007 在正式发布后出过一个著名的“低级” bug:850 x 77.1 = 100000)
用户1177713
2018-02-24
1.2K0
网站数据统计分析之二:前端日志采集是与非
在上一篇《网站数据统计分析之一:日志收集原理及其实现》中,咱们详细的介绍了整个日志采集的原理与流程。但是不是这样在真实的业务环境中就万事大吉了呢?事实往往并非如此。比如针对前端采集日志,业务的同学经常会有疑问:你们的数据怎么和后端日志对不上呢?后端比你们多了 N%!技术的同学也会问:你们怎么不打后端记日志呢?后端比你们效率和准确性更高。带着这些疑问今天咱们就来聊聊前端日志采集中的这些是是非非。 1、前端 VS 后端到底哪个准?该用谁? 这应该算是统计分析同学最为关注的问题之一了,到底哪个准我们应该从技术和业
用户1177713
2018-02-24
2.3K0
一次小折腾:PyCharm 调用 Cygwin Python 找不到 time、sys 等内置模块
1、需求背景 为什么要这样干呢?因为 Python 虽然号称跨平台,但是一些和操作系统相关的函数 API,windows 下也还是只能干瞪眼用不了,比如 import  fcntl 这在 windows 下是没法用的,这就给开发测试带来了不便,在两个异构系统上,没法无缝切换 work。因此,能想到的就是利用 windows 上的 Cygwin 模拟 linux,然后 Pycharm 去调用 Cygwin 下的 Python 即可。 2、配置环境变量以及 PyCharm 参数 2.1 环境变量 CYGWIN
用户1177713
2018-02-24
3.9K0
Chrome 自动化交互利器:用 tampermonkey 向页面注入自定义 Javascript
1、背景 经常会遇到类似下面的这种网站,查个信息得填一堆信息,奇葩的是文本框也不让复制粘贴,而且浏览器还不自动保存,这样每次查询或者超时退出都得重新手动填写一遍。 有没有办法能简化这个过程呢? 办法当
用户1177713
2018-02-24
3.9K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档