首页
学习
活动
专区
工具
TVP
发布

我是攻城师

专栏作者
492
文章
958661
阅读量
119
订阅数
深入理解什么是LSM-Tree
十多年前,谷歌发布了大名鼎鼎的"三驾马车"的论文,分别是GFS(2003年),MapReduce(2004年),BigTable(2006年),为开源界在大数据领域带来了无数的灵感,其中在 “BigTable” 的论文中很多很酷的方面之一就是它所使用的文件组织方式,这个方法更一般的名字叫 Log Structured-Merge Tree。在面对亿级别之上的海量数据的存储和检索的场景下,我们选择的数据库通常都是各种强力的NoSQL,比如Hbase,Cassandra,Leveldb,RocksDB等等,这其中前两者是Apache下面的顶级开源项目数据库,后两者分别是Google和Facebook开源的数据库存储引擎。而这些强大的NoSQL数据库都有一个共性,就是其底层使用的数据结构,都是仿照“BigTable”中的文件组织方式来实现的,也就是我们今天要介绍的LSM-Tree。
我是攻城师
2019-06-03
41.5K2
多线程协作打印ABC之ReentrantLock版本
我们介绍了在Java里面使用synchronized + wait/notifyAll实现的多线程轮流打印特定的字符串,输出的结果如下:
我是攻城师
2018-12-26
1.1K0
嘿,这里有一份来自JetBrains公司的福利
这两天国外最热的互联网新闻莫过于微软高价收购github公司了,然后讨论最多的就是关于微软对开源的态度,这里不管结果如何,我都希望github这个网站能不变初心的仍是广大程序员们最喜欢去的地方。一般互联网公司大到一定规模,都会选择开源或开放一些自己的技术理念和框架,这样一方面能够展示自己公司的实力,另一方面还会提升参与开源事业的名誉。这方面国内和国外的典型代表就是阿里巴巴和Google。
我是攻城师
2018-07-23
5670
嘿,这里有一份来自JetBrains公司的福利
这两天国外最热的互联网新闻莫过于微软高价收购github公司了,然后讨论最多的就是关于微软对开源的态度,这里不管结果如何,我都希望github这个网站能不变初心的仍是广大程序员们最喜欢去的地方。一般互联网公司大到一定规模,都会选择开源或开放一些自己的技术理念和框架,这样一方面能够展示自己公司的实力,另一方面还会提升参与开源事业的名誉。这方面国内和国外的典型代表就是阿里巴巴和Google。
我是攻城师
2018-06-06
1.7K2
Java里面关于数组拷贝的几种方式
在java里面数组拷贝有几种方式: (1)clone (2)System.arraycopy (3)Arrays.copyOf (4)Arrays.copyOfRange 下面分别介绍下他们的用法:
我是攻城师
2018-05-14
1.1K0
使用Scala的强大api快速加工数据
Scala是一门高级的,非常灵活和强大的函数式编程语言,既支持类型严格,语义明确的面向对象的编程风格,也支持类型多变,写法风骚的函数式编码。 Scala中封装了许多有用强大的api,使我们处理数据更加
我是攻城师
2018-05-14
9140
使用Java Rest Client操作Elasticsearch
Elasticsearch作为一个成熟的开源框架,对主流的多种客户端语言都支持,比如Java,JavaScript ,PHP,.Net,Python,Ruby,CURL当然还有一些小众的语言,虽然es官网没支持,但是个人开发者也有一些开源的,具体的可在es官网clients地址查看: https://www.elastic.co/guide/en/elasticsearch/client/index.html 开发过程中,基本最常用的就是Java和curl的方式了,因为es本身就是使用java语言开发的,
我是攻城师
2018-05-14
2.8K0
Apache Kylin的入门安装
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 从官网的介绍来看Kylin是一个OLAP的数据查询引擎,其特点就是快。公司最近准备引入Kylin做数据分析,原来也听说过 但一直没有接触,现在正好可以验证下Kylin是否是传说中那么NB,今天我们先来看看如何安装部署Kylin。 由于Kylin本身只是一个Server,所以安装部署还是比较简
我是攻城师
2018-05-14
9740
解决kibana搜索提示框占位问题
kibana的版本是4.5.3,遇到这个问题比较烦人,使用kibana搜索时,因为自带的autocompelte插件,老是提示用历史的关键词,不能让你自己编辑正在用的输入框,导致搜索内容特别费劲,得用鼠标点击好几下才有可能能使用,火狐,chrome浏览器都试过了,都有这个问题,原来都将就着用,但也不是个办法,今天google了一把解决了,需要给页面添加一个css样式即可: 问题如下动态图所示: image.png kibana的github上已经有人反馈这个bug了,详情看下面的两个链接: https://
我是攻城师
2018-05-14
1.4K0
360开源的Qconf配置同步工具使用记录
编译Qconf git clone https://github.com/Qihoo360/QConf.gitcd Qconf//注意如果不是root永恒,可能需要使用sudo权限mkdir build && cd build// 默认安装在/usr/local/qconf目录,后面的命令指定安装目录cmake .. 或者 cmake .. -DCMAKE_INSTALL_PREFIX=/install/prefix make make install//如果出错,也就下面几个错误了sudo ln -s
我是攻城师
2018-05-14
8990
如何利用Guava实现方法调用超时自动中断
在实际的开发中,我们会经常遇见一些这样的情景, (1)对于突发高并发下环境下,服务器压力很大的情况下,调用某些方法超过100ms不响应,应自动拒绝服务,而不是一直阻塞下去,直至服务器崩溃,算是一种变相的服务降级 (2)对于不可预知可能出现死锁的代码,加上时间阈值限制,避免无限制资源竞争 (3)对于不可预知可能出现死循环的代码,加上时间阈值监控,避免死循环恶化 对于一些成熟的开源框架一般都会带有超时响应这种功能,比如 搜索框架:Lucene,Solr,ElasticSearch, RPC框架:D
我是攻城师
2018-05-14
2.7K0
开源大数据索引项目hive-solr
github地址:https://github.com/qindongliang/hive-solr 欢迎大家fork和使用 关于这个项目的介绍,请参考散仙前面的文章: http://qindongliang.iteye.com/blog/2283862 最新更新: (1)添加了对solrcloud集群的支持 (2)修复了在反序列时对于hive中null列和空值的处理bug (3)优化了在构建索引时对于null值和空值的忽略 一些测试: 数据量:约一千二百万,8个字段,其中一个是大
我是攻城师
2018-05-14
1.1K0
Kakfa集群搭建
先来整体熟悉下Kafka的一些概念和架构 (一)什么是Kafka? Kafka是由LinkedIn开发并开源的一个分布式消息系统,因其分布式和高吞吐率被广泛应用,现在已经在Hadoop和Spark等大数据的生态系统中成为一个必不可少的生态组件,可与各种计算模型,如离线计算,实时计算,流计算对接数据。 (二)为什么要用Kafka? 1,以时间复杂度O(1)的方式提供消息持久化和访问能力,即使应对TB级数据也能保证常数时间内的的访问和存储。 2,高吞吐率,在普通PC上也能保证每秒10万左右的消
我是攻城师
2018-05-14
8090
如何成为一名优秀的全栈工程师
📷 写在最前 我的前一篇文章《给职场新人的10点职涯建议》发表后,得到了很多简友,特别是年轻程序员朋友们的喜爱,这令我颇感意外,但又很受鼓舞。同时,我也收到了一些简信,大多来自那些毕业不久,刚步入工作岗位的职场新人。询问的内容也大多是如何选择职业方向,如何成为一名优秀的软件工程师,以及怎样快速提高自身的技能等。我在一一回复的同时,不禁想结合自身的经历,谈谈如何才能成为一名优秀的全栈工程师。 什么是全栈工程师 全栈工程师一词,最早出现于Facebook工程师Calos Bueno的一篇文章
我是攻城师
2018-05-14
8320
8个方法让你成为更优秀的程序员
现在是时候认真考虑提高你的编程技能了! 这是给自己设定的一个简单的职业生涯提升目标,但是“成为一个高薪程序员”不是一个简单的目标。一方面,“我要变得更优秀”意味着你知道“更优秀”是什么样的。另一方面,
我是攻城师
2018-05-14
5520
Hadoop生态系统在壮大:十大炫酷大数据项目
在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本文介绍一些重要项目,并顺便了解几个新兴项目。
我是攻城师
2018-05-14
1K0
优秀大数据GitHub项目一览
VMware CEO Pat Gelsinger曾说: 引用 数据科学是未来,大数据分析则是打开未来之门的钥匙 企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。 跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高。 下面我们尽量列出了一些流行的开源大数据项目。根据它们各自的授权协议,你或许可以在个人或者商业项目中使用这些项目的源代码。写作本文的目的也就是为大家介绍一些解决大数
我是攻城师
2018-05-14
2.1K0
盘点大数据生态圈,那些繁花似锦的开源项目
随着互联网和移动互联网的发展,时下我们正处在一个大数据的时代。在数据金山的诱惑下,各个机构纷纷开始探索从数据中提取洞见并指导实践的可能。而在这个需求的刺激下,在过去数年,大数据开源生态圈得到了长足的发展——在数据的整个生命周期中,从收集到处理,一直到数据可视化和储存,各种开源技术框架林立。 以这些开源技术为基石,业内涌现出一系列令人敬佩的大数据架构实践,而《程序员》电子刊9月B大数据实战与技术专题则摘录了电商、金融、游戏等行业的大数据应用,并覆盖了当下热门的大数据开源技术实践与技术细节,如Hadoop、
我是攻城师
2018-05-14
8500
Pig0.15集成Tez,让猪飞起来
1,Tez是什么? Tez是Hortonworks公司开源的一种新型基于DAG有向无环图开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能,看下面一张图,就能说明问题
我是攻城师
2018-05-11
8090
助人就是助己:IBM宣布大规模资助开源大数据项目Spark
本周一,IBM宣布将对开源实时大数据分析项目Apache Spark进行大规模资助,蓝色巨人宣称,其资助的力度之大相当于每年数亿美元的投入。 Hadoop技术出自Google、Yahoo这些互联网公司
我是攻城师
2018-05-11
6420
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档