首页
学习
活动
专区
工具
TVP
发布

呼延

专栏作者
227
文章
294760
阅读量
40
订阅数
Lucene系列(18)索引格式之kdm文件
kdm,kdi,kdd 三个文件共同存储了Lucene中Point类型的数据及索引,Point存储及搜索过程中使用BKD树数据结构,因此这三个文件和BKD关系比较密切, 建议在阅读前了解相关的BKD树理论.
呼延十
2021-04-15
6410
Lucene系列(20)索引格式之kdd文件
除了Header及Footer等内容,其他写入都在org.apache.lucene.util.bkd.BKDWriter.build(int, int, org.apache.lucene.util.bkd.BKDRadixSelector.PathSlice, org.apache.lucene.store.IndexOutput, org.apache.lucene.util.bkd.BKDRadixSelector, byte[], byte[], int[], byte[], byte[], long[], int[]) 方法中,具体逻辑很长就不贴代码了。
呼延十
2021-04-15
3570
Lucene系列(16)工具类之kdb Bkd树原理概述
lucene在6.0之后引入了数字点(Point)的概念,对于多维数字点的索引,就需要用到kd树结构了,当然,在lucene中用到的是进阶版本的bkd树.
呼延十
2021-04-02
4.1K0
Lucene系列(17)工具类之bkd树的源码实现
bkd树在lucene中的实现,都在org.apache.lucene.util.bkd中,其中又包含了下面几个类.
呼延十
2021-04-02
7210
Lucene系列(15)工具类之基数选择算法
基数选择和基数排序非常类似,本文侧重点在于 Lucene 的实现,因此对于基数排序的详细原理就不解释了。
呼延十
2021-03-29
4350
Lucene系列(14)工具类之快速选择算法
计算集合中第 k 大(小)的元素。就是 topK 相关系列的问题,但是选择算法只需要找到第 k 个就好。
呼延十
2021-03-29
6270
Lucene系列(12)索引格式之nvm文件
nvm 与 nvd 文件配合存储了索引中的标准化相关信息。其中 nvm 存储了元数据,nvd 文件存储了标准化后的值及相关 docId 信息。
呼延十
2021-03-22
6140
Lucene系列(13)索引格式之nvd文件
nvm 与 nvd 文件配合存储了索引中的标准化相关信息。其中 nvd 存储了真实的数据,比如当前 field 有值的所有 docId,以及他们的标准化值。
呼延十
2021-03-22
5370
Lucene系列(十)索引格式之pos文件
因此文件格式与doc总体上讲也是基本相同的,因为不用存储跳跃数据(doc文件中的跳跃数据包含了pos文件的文件位置,可以协助查找),文件反而简单了许多.
呼延十
2021-03-15
1.4K0
Lucene系列(11)索引格式之pay文件
同样在构造函数中. org.apache.lucene.codecs.lucene84.Lucene84PostingsWriter#Lucene84PostingsWriter.
呼延十
2021-03-15
6950
Lucene系列(九)索引格式之doc文件
各种东西还是比较多的, 具体的信息留在索引过程分析中再讲,我们快进到写入代码分析.
呼延十
2021-03-11
2.3K1
Lucene系列(七)索引格式之fdx文件
在CompressingStoredFieldsWriter类的构造函数中, 初始化了FieldsIndexWriter类的实例, 由它来进行fdx文件的写入,看看他的构造函数.
呼延十
2021-02-02
6330
Lucene系列(五)索引格式之fdm文件
首先学习一下lucene的索引文件结构. 本文介绍 Field 相关信息的存储文件格式.
呼延十
2021-02-02
9600
Lucene系列(六)索引格式之fdt文件
fdt文件,以正排的方式, 存储了field的原始真实数据. 也就是说, 你添加到所有中的所有field内容. 都会存储在此文件中.
呼延十
2021-02-02
1.3K0
Lucene系列(五)索引格式之fdm文件
首先学习一下 lucene 的索引文件结构。本文介绍 Field 相关信息的存储文件格式。
呼延十
2021-02-02
7040
Lucene系列(八)索引格式之fnm文件
fnm文件主要存储域的基础信息,前面我们知道了,在fdt,fdm,fdx三个文件中,配合存储了域的值信息,其中在fdt文件中,存储域的值信息时,为了将每个值与域名能对应起来,存储了FieldNumberAndType.  详情可查看 [lucene索引文件之fdt文件]http://huyan.couplecoders.tech/lucene/%E6%90%9C%E7%B4%A2%EF%BC%8C%E7%B4%A2%E5%BC%95%E6%96%87%E4%BB%B6/2021/01/04/lucene%E7%B3%BB%E5%88%97(%E5%85%AD)%E7%B4%A2%E5%BC%95%E6%A0%BC%E5%BC%8F%E4%B9%8Bfdt%E6%96%87%E4%BB%B6/)
呼延十
2021-02-02
7090
Lucene系列(一)什么是 Lucene
接触搜索/推荐相关工作,也有两年了。工作里对lucene的接触不少,却也不精。最近工作里没有那么忙,因此想通过学习源码的方式,来对lucene进行一个系统的学习。
呼延十
2021-01-27
8350
Lucene系列(二)int的变长存储与zigzag编码
lucene代码量还是比较多的, 在没有看的很明白的情况下, 先写一写新学到的工具类的一些操作吧~也是收获很多.
呼延十
2021-01-24
9590
Mysql全文索引的使用
在MySQL 5.6版本以前,只有MyISAM存储引擎支持全文引擎.在5.6版本中,InnoDB加入了对全文索引的支持,但是不支持中文全文索引.在5.7.6版本,MySQL内置了ngram全文解析器,用来支持亚洲语种的分词.
呼延十
2019-08-12
1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档