首页
学习
活动
专区
工具
TVP
发布

数据之美

专栏作者
138
文章
391988
阅读量
63
订阅数
Ubuntu on Windows10 跨平台开发环境搭建权威指南
程序猿经常争论的一个话题是:日常开发到底 Windows 好还是 Linux 好?进而演化出另一个问题:到底选 MacBook 好还是 SurfaceBook 好? 选择 Linux 系统或者 mac 笔记本的同学最核心的理由是 Linux/Mac 开发、编译工具链比较完善,很多环境或者安装包都系统自带了,写出来的程序可以很方便的通过开发、测试与线上系统对接,开发测试效率比较高,而 Windows 下开发的同学可能需要考虑开发、测试代码的可移植性问题。就拿笔者来说,也曾经遇到过某些 java/python 
用户1177713
2018-03-29
2.7K0
Hive Lock 那些事儿
0、背景 最近两天数据仓库中一张核心表遭遇了锁的问题,导致数据插入失败,影响挺大,之前一直没注意到这个问题,借此总结一下这块的知识和遇到的坑。 hive 在 0.7 版本之后开始支持并发,线上的环境默
用户1177713
2018-02-24
3.7K0
深入分析诡异的 Excel 求和统计缺失问题
1、背景 昨天有同学在用 Excel 做数据统计时偶然发现 Excel 会少算一些数据,而且这个坑让这位同学排查了很久才确认不是自己统计程序错误而只是 Excel 简单的汇总出错。最初看到这个问题时,我也觉得好奇:历史如此悠久、普及率这么高、一流公司的产品都会有这种低级 bug?虽说历史上 Excel 也曾经出过很低级的 bug,但一般很快会被 MS 官方修复,应该属于昙花一现的 bug 才对。(比如 Excel 2007 在正式发布后出过一个著名的“低级” bug:850 x 77.1 = 100000)
用户1177713
2018-02-24
1.2K0
浅谈 Scala 中下划线的用途
Scala 作为一门函数式编程语言,对习惯了指令式编程语言的同学来说,会不大习惯,这里除了思维方式之外,还有语法层面的,比如 underscore(下划线)就会出现在多种场合,令初学者相当疑惑,今天就来总结下 Scala 中下划线的用法。 1、存在性类型:Existential types def foo(l: List[Option[_]]) = ... 2、高阶类型参数:Higher kinded type parameters case class A[K[_],T](a: K[T]) 3、临时变
用户1177713
2018-02-24
6330
浏览器 HTTP 协议缓存机制详解
最近在准备优化日志请求时遇到了一些令人疑惑的问题,比如为什么响应头里出现了两个 cache control、为什么明明设置了 no cache 却还是发请求,为什么多次访问时有时请求里带了 etag,有时又没有带?等等。。。 后来查了一些资料以及同事亲自验证,总算对这些问题有了个清晰的理解,现在整理出来以备忘。 1、缓存的分类 缓存分为服务端侧(server side,比如 Nginx、Apache)和客户端侧(client side,比如 web browser)。 服务端缓存又分为 代理服务器缓存 和
用户1177713
2018-02-24
1.4K0
玩转 SHELL 脚本之:Shell 命令 Buffer 知多少?
1、问题: 下午有同学问了这么一个问题: tail -n +$(tail -n1 /root/tmp/n) -F /root/tmp/ip.txt 2>&1| awk 'ARGIND==1{i=$0;next}{i++;if($0~/文件已截断/){i=0};print $1"---"i;print i >> "/root/tmp/n"}' /root/tmp/n - seq 10 > /root/tmp/ip.txt && tail -f /root/tmp/n 把这两条语句分别在同一台
用户1177713
2018-02-24
2.2K0
BI/数据仓库/数据分析 基础入门:一些常见概念解释
Preface:本文将会讲述 BI/DW/DA 领域的一些常见概念,如:事实表、维度表、建模、多维分析、cube 等,但不涉及具体实例分析。 1、维(Dimension) 维是用于从不同角度描述事物特
用户1177713
2018-02-24
3.7K0
storm 原理简介及单机版安装指南
本文翻译自: https://github.com/nathanmarz/storm/wiki/Tutorial Storm是一个分布式的、高容错的实时计算系统。 Storm对于实时计算的的意义相当于Hadoop对于批处理的意义。Hadoop为我们提供了Map和Reduce原语,使我们对数据进行批处理变的非常的简单和优美。同样,Storm也对数据的实时计算提供了简单Spout和Bolt原语。 Storm适用的场景: 1、流数据处理:Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久
用户1177713
2018-02-24
7360
关于 HTTP GET/POST 请求参数长度最大值的一个理解误区
刚看到群里又有同学在说 HTTP 协议下的 Get 请求参数长度是有大小限制的,最大不能超过  XX,而 Post 是无限制的,看到这里,我想他们定是看多了一些以讹传讹的博客或者书籍, 导致一种理解上的误区: 1、首先即使有长度限制,也是限制的是整个 URI 长度,而不仅仅是你的参数值数据长度。 2、HTTP 协议从未规定 GET/POST 的请求长度限制是多少。 The HTTP protocol does not place any a priori limit on the
用户1177713
2018-02-24
3.9K0
hadoop 里执行 MapReduce 任务的几种常见方式
说明: 测试文件: echo -e "aa\tbb \tcc\nbb\tcc\tdd" > 3.txt hadoop fs -put 3.txt /tmp/3.txt 全文的例子均以该文件做测试用例,统计单词出现的次数(WordCount)。 1、原生态的方式:java 源码编译打包成jar包后,由 hadoop 脚本调度执行,举例: import java.io.IOException; import java.util.StringTokenizer; import org.apach
用户1177713
2018-02-24
6030
storm kafka 编程指南
一、原理及关键步骤介绍 storm中的storm-kafka组件提供了storm与kafka交互的所需的所有功能,请参考其官方文档:https://github.com/apache/storm/tree/master/external/storm-kafka#brokerhosts (一)使用storm-kafka的关键步骤 1、创建ZkHosts 当storm从kafka中读取某个topic的消息时,需要知道这个topic有多少个分区,以及这些分区放在哪个kafka节点(broker)上,ZkHosts
用户1177713
2018-02-24
2.1K0
windows 安装 storm 及 eclipse 调试 TopN 实例
一:安装JDK 下载地址:地址一 地址二 配置Java环境变量 JAVA_HOME、Path、CLASSPATH三个值分别为(按照自己安装状况设置,此处供参考): D:\java\jdk1.8 %JAVA_HOME%/bin;%JAVA_HOME%/jre/bin .;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar (要加.表示当前路径) 二:安装 Python 这是为了测试安装效果,我们将部署 storm-starter project案例中word co
用户1177713
2018-02-24
6360
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档