之前已经分享过Elasticsearch的使用和原理的知识,由于近期在公司内部做了一次分享,所以本篇主要是基于之前的博文的一个总结,希望通过这篇文章能让读者大致了解Elasticsearch是做什么的以及它的使用和基本原理。
生活中的数据
搜索引擎是对数据的检索,所以我们先从生活中的数据说起。
我们生活中的数据总体分为两种:结构化数据和非结构化数据。
结构化数据:也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。指具有固定格式或有限长度的数据,如数据库,元数据等。
非结构化数据:又可称为全文数据,不定长或无固定格式,不适于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、word文档,邮件,各类报表、图片和咅频、视频信息等。
说明:如果要更细致的区分的话,XML、HTML可划分为半结构化数据。因为它们也具有自己特定的标签格式,所以既可以根据需要按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。
根据两种数据分类,搜索也相应的分为两种:结构化数据搜索和非结构化数据搜索。
对于结构化数据,因为它们具有特定的结构,所以我们一般都是可以通过关系型数据库(mysql,oracle等)的 二维表(table)的方式存储和搜索,也可以建立索引。
先说说Lucene
核心概念
集群(Cluster)
发现机制
节点的角色
脑裂现象
分片(Shards)
副本(Replicas)
映射(Mapping)
基本使用
安装使用
集群健康状态
机制原理
写索引原理
存储原理
分段存储
延迟写策略
段合并
性能优化
存储设备
内部索引优化
调整配置参数
JVM调优
领取专属 10元无门槛券
私享最新 技术干货