首页
学习
活动
专区
工具
TVP
发布

我是攻城师

专栏作者
492
文章
958231
阅读量
119
订阅数
深入理解什么是LSM-Tree
十多年前,谷歌发布了大名鼎鼎的"三驾马车"的论文,分别是GFS(2003年),MapReduce(2004年),BigTable(2006年),为开源界在大数据领域带来了无数的灵感,其中在 “BigTable” 的论文中很多很酷的方面之一就是它所使用的文件组织方式,这个方法更一般的名字叫 Log Structured-Merge Tree。在面对亿级别之上的海量数据的存储和检索的场景下,我们选择的数据库通常都是各种强力的NoSQL,比如Hbase,Cassandra,Leveldb,RocksDB等等,这其中前两者是Apache下面的顶级开源项目数据库,后两者分别是Google和Facebook开源的数据库存储引擎。而这些强大的NoSQL数据库都有一个共性,就是其底层使用的数据结构,都是仿照“BigTable”中的文件组织方式来实现的,也就是我们今天要介绍的LSM-Tree。
我是攻城师
2019-06-03
41.4K2
深入理解Java8并发工具类StampedLock
StampedLock类是JDK8里面新增的一个并发工具类,这个类比较特殊,在此之前我们先简单的了解一下关于数据库或者存储系统的锁策略和机制。
我是攻城师
2018-09-30
5430
理解Java中锁的状态与优化
关于锁的知识,按大类来说,通常我们只分乐观锁和悲观锁。但在Java语言里对同步锁的状态又进行了细化通常有无锁状态,偏向锁,自旋锁,轻量级锁,重量级锁,这么做的目的主要还是为了提高并发性能。
我是攻城师
2018-07-23
5260
Elasticsearch如何检索数据
我们都知道Elasticsearch是一个全文检索引擎,那么它是如何实现快速的检索呢? 传统的数据库给每个字段都存储成一个单个值,对于全文检索而言,这样的存储是低效的。举个例子,我有一个大文本字段,存到数据库里面只能是一个值,如果想要检索这个大文本字段里面的任何一个词,数据库如何实现? 只能通过like模糊查询来实现,先不说性能低,这对于一个搜索引擎是远远不够的。 针对上面数据库的不足,所以才出现了Lucene这种全文检索框架而它的核心就在于采用了倒排索引(Inverted Index)的数据结构,不同于数
我是攻城师
2018-05-15
9880
在Scala里面如何使用元组
元组在Scala语言中是一种十分重要的数据结构,类似数据库里面的一行记录(row),它可以将不同类型的值组合成一个对象,在实际应用中十分广泛。 先来看一个简单的tuple定义: 上面的第二种例子中,可
我是攻城师
2018-05-14
7900
理解数据仓库中星型模型和雪花模型
在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。 (一)星型模型图示如下: 星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hive时,经常会看到一些大宽表的原因,大宽表一般都是事实表,包含了维度关联的主键和一些度量信息,而维度表则是事实表里面维度的具体信息,使用时候一般通过join来组合数据
我是攻城师
2018-05-14
9.3K1
简述ElasticSearch里面复杂关系数据的存储方式
在传统的数据库里面,对数据关系描述无外乎三种,一对一,一对多和多对多的关系,如果有关联关系的数据,通常我们在建表的时候会添加主外键来建立数据联系,然后在查询或者统计时候通过join来还原或者补全数据,最终得到我们需要的结果数据,那么转化到ElasticSearch里面,如何或者怎样来处理这些带有关系的数据。 我们都知道ElasticSearch是一个NoSQL类型的数据库,本身是弱化了对关系的处理,因为像lucene,es,solr这样的全文检索框架对性能要求都是比较高的,一旦出现join这样的操作,性能会
我是攻城师
2018-05-14
5K0
ElasticSearch里面如何分组后根据sum值排序
ElasticSearch里面的聚合机制非常灵活和强大,今天我们来看下如何在ElasticSearch里面实现分组后,根据sum值进行排序?类似的数据库SQL如下: 这是一个比较常见的统计需求,在es也能比较轻松的实现,先看看curl的一个实现例子查询: 然后,我们看下,如何在Java Api里面操作: 首先我们看下造的数据 总共三个字段id,count,code都是int类型的 然后,我们可以将上面的数据插入到es里面,具体的插入代码不在给出,比较简单,直接通过client.prepareIndex方法插
我是攻城师
2018-05-14
4.7K0
最近工作中遇到ElasticSearch一些问题总结
最近在使用ElasticSearch来查询我们的一些实时数据,中间也遇到不少的问题,今天在此简单总结记录一下。es的功能的确十分强大,大部分数据库能实现的需求,基本在es里面都能实现,当然两者都有一些
我是攻城师
2018-05-14
1.9K0
ElasticSearch并发操作之乐观锁的使用
绍了关于ES嵌套索引的增删改,本篇就接着上篇主题继续深入聊一下,上篇的添加和更新操作,其实是不安全的,所有的数据库db系统都会存在并发问题像关系型数据库MySQL,Oracle,SQL Server默认采用的是悲观锁。 在ElasticSearch中采用的乐观锁,下面先熟悉下什么是乐观锁和悲观锁: 悲观锁(Pessimistic Lock), 顾名思义,就是很悲观,每次去拿数据的时候都认为别人会修改,所以每次在拿数据的时候都会上锁,这样别人想拿这个数据就会block直到它拿到锁。传统的关系型数据库里边就用到
我是攻城师
2018-05-14
1.6K0
图形数据库之Neo4j学习(一)
最近工作需要使用图形数据库来构建知识图谱,目前基于Java使用最广泛的有两个开源框架 (1) neo4j 社区版 免费 企业版 收费 (2) Titan 全开源 我们此次选择了neo4j的社区版,主要是项目紧,neo4j比较稳定,Titan可能比较新,虽然Titan肯定是未来的主流,我个人是看好Titan的,Neo4j没法存储巨大的一张关系图 ,因为他不支持分片,而Titan是天生分布式的,可以构建在Hbase,Cassandra之上外加+ES或者Solr存储索引,非常强大,再此不在过多 对比两个图形数据库
我是攻城师
2018-05-14
1.2K0
如何使用neo4j存储树形无限级菜单
对于树形菜单,想必大家都不陌生,这种业务数据,由于量小,关系复杂,所以在关系型数据库中,存储的格式一般都如下所是: id,name,pid 01,bigdata,00 002,hadoop,01 003,spark,01 02,search,01 03,lucene,02 04,es,02 有没有人感到困惑,为啥不使用,主外键表,存储这种数据,而非得只使用一张表来存储呢?结果导致查询非常受限,通常只能递归出所有节点,然后对比找到指定数据。 如果使用主外键表存储,通常关系越复杂需要的外键表越多
我是攻城师
2018-05-14
2.6K0
图形数据库之Neo4j核心概念介绍(二)
最近这段时间一直在搞知识图谱的一个项目,有点忙,所以博客更新有点慢,现在第一阶段的开发基本完活,后面有空会总结几篇与neo4j有关的文章。 有关neo4j的介绍和使用场景,这里不多说了,不了解的朋友可以参考我之前的文章 http://qindongliang.iteye.com/blog/2327919 我们的使用场景是用来存知识图谱有关的数据简单说就是会把从小学到高中所有的科目的里面的知识点给存储起来,让后建立知识点与知识点之间的依赖关系,从而最终会形成一张复杂的知识网络。举个例子: 比如某个学生,要学习
我是攻城师
2018-05-14
1.7K0
MySQL的InsertOrUpdate语法
MySQL的插入语法提供了类似insertOrUpdate的语法,这种方式大部分存储系统都有类似的机制比如在Solr或者ElasticSearch中,如果主键一样的就更新,不一样就添加,只不过在数据库里可以是主键单个或多个字段,也可以是单个索引或多字段联合唯一索引,逻辑都一样。 比如表里面有id,age,name,address,score四个字段 联合唯一索引 是id+age+name(表里只有索引没有主键,后面单说) 向一张空表插入下面的数据 Java代码 INSERT INTO pe
我是攻城师
2018-05-14
3.8K0
漫谈依赖管理工具:从Maven,Gradle到Go
为什么要有依赖管理工具谈依赖管理之前,我们先谈谈为什么要有依赖管理工具这东西。 我们学了一种编程语言,然后写了个“Hello World”,然后宣称自己学了一门语言,这时候确实不需要关心依赖问题。 然而,当你要写一个稍微复杂点的应用,那怕就是留言板这样的,需要读写数据库,就需要依赖数据库驱动,就会遇到依赖管理的问题了。 再进一步,你写了一个库,想共享给别人使用,更需要了解依赖管理的问题。 当然,如果项目足够简单,你可以直接将依赖方的源码放置在自己的项目中,或者将依赖库的二进制文件(比如jar,dll)放置在
我是攻城师
2018-05-14
2.5K0
如何成为一名优秀的全栈工程师
📷 写在最前 我的前一篇文章《给职场新人的10点职涯建议》发表后,得到了很多简友,特别是年轻程序员朋友们的喜爱,这令我颇感意外,但又很受鼓舞。同时,我也收到了一些简信,大多来自那些毕业不久,刚步入工作岗位的职场新人。询问的内容也大多是如何选择职业方向,如何成为一名优秀的软件工程师,以及怎样快速提高自身的技能等。我在一一回复的同时,不禁想结合自身的经历,谈谈如何才能成为一名优秀的全栈工程师。 什么是全栈工程师 全栈工程师一词,最早出现于Facebook工程师Calos Bueno的一篇文章
我是攻城师
2018-05-14
8320
我是如何从煤矿工成为程序员的
你是否为你将来想从事的工作和事业做出了足够的努力?我将要给你讲述一个真实的故事,一个叫Mircea Goia的煤矿工转行去追求他真正想要的工作的故事:- 我来自于一个东欧国家。我在一个煤矿里工作了很多年(在一个很深的矿井里)。每天我都处在危险中,那些年都是这样度过的。后来我感觉过够了这种生活,决定去寻找另外一种生活(挖煤没有任何前途。)我很年轻,没有任何负担,跟你们一样。 离开煤矿时,政府给了我们一笔钱(大概是2500美元——这在那时在我们国家相当于一个矿工一年的薪水)。我拿着这笔钱就开始学习计算
我是攻城师
2018-05-14
8260
Hive使用ORC格式存储离线表
在大数据时代,列式存储变得越来越流行了,当然并不是说行式存储就没落了,只是针对的场景不同,行式存储的代表就是我们大多数时候经常用的数据库,比较适合数据量小,字段数目少,查询性能高的场景,列式存储主要针对大多数互联网公司中的业务字段数目多,数据量规模大,离线分析多的场景,这时候避免大量无用IO扫描,往往提高离线数据分析的性能,而且列式存储具有更高的压缩比,能够节省一定的磁盘IO和网络IO传输。 基础环境如下: Apache Hadoop2.7.1 Apache Hbase0.98.12 Apach
我是攻城师
2018-05-14
6K2
Elasticsearch的Mapping之元数据类型
在es中,mapping的存在类似数据库的表结构定义或者solr里面的schemal文件,它里面定义了每个添加的doc的处理方式。 mapping type定义了不同的逻辑上组隔离,这一点类似于数据库的各个表,例如用户表,订单表,商品表,在es里面 每个表都有自己的一个mapping type,每个mapping type包含: 元数据字段: (1),身份元数据 _index : 此doc例如于那个index名 , 自动被索引,可被查询,聚合,排序使用,或者脚本里访问 _type:
我是攻城师
2018-05-14
1.2K0
2015年需要了解的前端框架和语言
语言/平台 Node.js第一,PHP第二,JavaScript第三。因为Node.js的社区很多,所以这个结果你也不用太意外。如果你知道JavaScript,你已经一只脚踏进了用Node.js
我是攻城师
2018-05-11
7850
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档