Lucene建议:使用CompletionQuery时出现"is not a SuggestField“异常_使用Ehcache时出现ClosedChannelException异常_使用SelectInput()时出现NullPointer异常 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Lucene 1.9 改进特性列表

注：lucene2.0发布版本并不是100%的和 1.4.3 版兼容。也就是说在你用2.0版本的Lucene开发包替换原来的1.4.3版本时，应该让你的应用程序首先和1.9的兼容。

02

深入了解Elasitcsearch存储

本文我们将研究Elasticsearch各功能模块写入数据目录中的文件。我们将分别从节点层面，索引层面和分片层面进行了解，并简单解释他们的内容，以帮助大家了解Elasticsearch写入磁盘的数据。

08

您找到你想要的搜索结果了吗？

是的

没有找到

使用ElasticSearch的44条建议

在搜索业务上摸爬滚打3年，使用的Es版本也从1.x升级到了5.x，扮演的角色也逐渐从Es的使用方变为维护方，这里大致汇总了使用Es过程中踩的一些坑以及一些注意事项，也会穿插一下我们的解法。

02

Solr配置maxBooleanClauses属性不生效原因分析

上次已经写过一篇关于solr中，查询条件过多的异常的文章，这次在总结扩展一下：有时候我们的查询条件会非常多，由于solr的booleanquery默认设置的条件数为1024，所以超过这个限制的会报异常，这样设置的原因是为了限制过多条件查询，降低查询的性能，但有时候又必须这样查，或分析数据用，所以可以临时改变下，修改方法：修改solrconfig.xml文件： Java代码 <maxBooleanClauses>20000</maxBooleanClauses> 理想情况下，配置

06

干货 | 吃透Elasticsearch 堆内存

1、什么是堆内存？ Java 中的堆是 JVM 所管理的最大的一块内存空间，主要用于存放各种类的实例对象。在 Java 中，堆被划分成两个不同的区域：新生代 ( Young )、老年代 ( Old )。新生代 ( Young ) 又被划分为三个区域 Eden、 From Survivor、 To Survivor。这样划分的目的是为了使 JVM 能够更好的管理堆内存中的对象，包括内存的分配以及回收。 2、堆内存的作用是什么？在虚拟机启动时创建。堆内存的唯一目的就是创建对象实例，所有的对象实例

04

干货 | Elasticsearch通用优化建议

Elasticsearch开发实战的后期会遇到性能问题，包括：创建索引性能、写入数据性能、检索性能等。网上有很多结合自己实际应用场景的相关优化建议，但“对症下药”才是关键。

02

Apache Pig如何与Apache Lucene集成

Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache（一个开源软件的基金组织）的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台，它提供的SQL-like语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一点和FaceBook开源的Hive（一个以SQL方式，操作hadoop的一个开源框架）一样简洁，清晰，易上手！

01

Apache Pig如何与Apache Lucene集成？

在文章开始之前，我们还是简单来回顾下Pig的的前尘往事： 1，Pig是什么？ Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache（一个开源软件的基金组织）的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台，它提供的SQL-like语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一

05

ES提交操作与原理

根据官方文档+看源码+实验总结出来的ES各种提交的作用与原理(对应版本7.2.0).

04

ElasticSearch详解与优化设计

1、简介 ElasticSearch（简称ES）是一个分布式、Restful的搜索及分析服务器，设计用于分布式计算；能够达到实时搜索，稳定，可靠，快速。和Apache Solr一样，它也是基于Lucence的索引服务器，而ElasticSearch对比Solr的优点在于：轻量级：安装启动方便，下载文件之后一条命令就可以启动。 Schema free：可以向服务器提交任意结构的JSON对象，Solr中使用schema.xml指定了索引结构。多索引文件支持：使用不同的index参

05

ES 最佳实践配置

Elasticsearch 是当前流行的企业级搜索引擎，设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。作为一个开箱即用的产品，在生产环境上线之后，我们其实不一定能确保其的性能和稳定性。如何根据实际情况提高服务的性能，其实有很多技巧。这章我们分享从实战经验中总结出来的 elasticsearch 性能优化，主要从硬件配置优化、索引优化设置、查询方面优化、数据结构优化、集群架构优化等方面讲解。

03

ElasticSearch基础概念

下图红色勾选的是我们前面的系列详解的，除此之外你可以看到搜索库ElasticSearch在前十名内：

01

ElasticSearch+Solr几个case笔记

（一）最大能索引字符串的长度关于能索引最大的字符串长度，其实在Elasticsearch和Solr中都是由底层的Lucene决定的（1）不分词+索引的字符串最大长度为32766字节（2）分词+索引一般不会出现长度越界问题（3）不索引的字符串虽然没有长度最大限制，但是不建议使用搜索引擎存储大量文本（二）设置超出一定长度的字段，不索引其实这个功能，也是由底层Lucene提供的，关于它的应用场景举个例子，大部分情况下，不分词的字段可能经常会被用来聚合，过滤，排序，分组，但是如果这个不分词的字段非常长

04

第01篇-ElasticSearch能做什么？从入门到精通-01ElasticSearch简介

这是我的博客系列“ Elasticsearch简介”的第一篇文章。本系列旨在指导您入门Elasticsearch，了解其功能，现实生活中的用例以及熟悉Elasticsearch堆栈中的其余组件。该博客将为您简要介绍Elasticsearch，其提供的解决方案以及选择Elasticsearch服务的原因。

00

这样学习ElasticSearch可以起飞

最近一年使用 Elasticsearch 完成亿级别日志搜索平台「ELK」，亿级别的分布式跟踪系统。在设计这些系统的过程中，底层都是采用 Elasticsearch 来做数据的存储，并且数据量都超过亿级别，甚至达到百亿级别。

02

Lucene索引数据异常

最近突然发现本站的全文检索功能失效了，在本地进行调试，发现抛出 TokenStream contract violation异常，很奇怪的异常，因为之前本功能是好好的，也没改动，并且我也没使用TokenStream，异常如下：

01

lucene.net全文检索（一）相关概念及示例

站内搜索通俗来讲是一个网站或商城的“大门口”，一般在形式上包括两个要件：搜索入口和搜索结果页面，但在其后台架构上是比较复杂的，其核心要件包括：中文分词技术、页面抓取技术、建立索引、对搜索结果排序以及对搜索关键词的统计、分析、关联、推荐等。

03

【搜索引擎】提高 Solr 性能

在过去的 10 个月里，我很高兴与个性化和相关性团队合作。我们负责根据排名和机器学习向用户提供“个性化和相关的内容”。我们通过一组提供三个公共端点的微服务来做到这一点，即 Home Feed、Search 和 Related items API。我记得加入团队几个月后，下一个挑战是能够为更大的关键国家提供优质服务。目标是保持我们在较小国家/地区已经拥有的完美性能和稳定性。

01

LockFactory索引文件锁源码解析

LockFactory在lucene中用来对索引目录进行加锁，使得同一时间只能有一个IndexWriter对象对索引目录进行操作。

04

浅谈Lucene中的DocValues

前言：在Lucene4.x之后，出现一个重大的特性，就是索引支持DocValues，这对于广大的solr和elasticsearch用户，无疑来说是一个福音，这玩意的出现通过牺牲一定的磁盘空间带来的好处主要有两个：（1）节省内存（2）对排序，分组和一些聚合操作时能够大大提升性能下面来详细介绍下DocValue的原理和使用场景（一）什么是DocValues？ DocValues其实是Lucene在构建索引时，会额外建立一个有序的基于document => field value的映射

03

探究 | Elasticsearch不支持事务有什么好的弥补方案吗？

源自星球同学的提问：es如何与hive或mysql结合使用？es不支持事务有什么好的弥补方案吗？

03

万文Elasticsearch巧妙的架构详解

本书作为 Elastic Stack 指南，关注于 Elasticsearch 在日志和数据分析场景的应用，并不打算对底层的 Lucene 原理或者 Java 编程做详细的介绍，但是 Elasticsearch 层面上的一些架构设计，对我们做性能调优，故障处理，具有非常重要的影响。

02

Elasticsearch存储深入详解

在本文中，我们将研究Elasticsearch的各个部分写入数据目录的文件。我们将查看节点，索引和分片级文件，并简要说明其内容，以便了解Elasticsearch写入磁盘的数据。

02

一步一步学lucene——（第一步：概念篇）

信息检索的概念信息检索（Information Retrieval）是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分，即从信息集合中找出所需要的信息的过程，也就是我们常说的信息查寻（Information Search 或Information Seek）。我们在下边研究的lucene就是对信息做全文检索的一种手段，或者说是一项比较流行的技术，跟google、baidu等专业的搜索引擎比起来会有一定的差距，但是对于普通的企业级应用已

08

面试题之 Elasticsearch 性能优化详解

大多数 Elasticsearch 部署往往对 CPU 要求不高。因此，相对其它资源，具体配置多少个（CPU）不是那么关键。你应该选择具有多个内核的现代处理器，常见的集群使用 2 到 8 个核的机器。如果你要在更快的 CPUs 和更多的核数之间选择，选择更多的核数更好。多个内核提供的额外并发远胜过稍微快一点点的时钟频率。

01

快速学习Lucene-Lucene索引库查询

对要搜索的信息创建Query查询对象，Lucene会根据Query查询对象生成最终的查询语法，类似关系数据库Sql语法一样Lucene也有自己的查询语法，

02

影响Lucene索引速度原因以及提高索引速度技巧

在网上看了一篇外文文章，里面介绍了提高Lucene索引速度的技巧，分享给大家。

02

0705-5.16.2-HDFS文件浏览器异常分析

根据异常提示，’ Index build failed for service hdfs’，可以知道是为服务HDFS创建索引失败，导致了进入HDFS的文件浏览器异常。无法进入HDFS的索引。这种情况考虑可能是Reports Manager的工作目录下的索引文件损坏，导致RM启动的时候创建索引失败。我们通过rebulid索引目录来进行异常排除。

02

了解Solr

采用Java开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。

02

深入解析Elasticsearch的内存架构与管理

Elasticsearch的内存架构主要分为两大部分：堆内存（On-Heap）和堆外内存（Off-Heap）。这两部分内存各有其用途和管理策略，共同支撑着Elasticsearch的高性能和可扩展性。

01

ES学习分享

Elasticsearch是一个基于Apache Lucene的开源搜索引擎，通过简易的API来隐藏Lucene的复杂性。ES的基本结构包括，Cluster集群(由n个节点组成)，Node实例节点，Index索引(一系列documents的集合)，Shard分片(索引的数据是分配到各个分片的)，Replica备份节点(相应有Primay Shard主分片)

02

Lucene暴走之巧用内存倒排索引高效识别垃圾数据

识别垃圾数据，在一些大数据项目中的ETL清洗时，非常常见，比如通过关键词（1）过滤垃圾邮件（2）识别yellow网站（3）筛选海量简历招聘信息（4）智能机器人问答测试 ........ 各个公司的业务规则都不一样，那么识别的算法和算法也不一样，这里提供一种思路，来高效快速的根据关键词规则识别垃圾数据。下面看下需求：业务定义一些主关键词若干少则几百个，多则几千个上万个，例如： Java代码公司机车厂化纤厂建设局实业集团中心店桑拿中心

Elasticsearch集群规划及节点角色规划醉佳实践

Elasticsearch 和 Lucene 都是 Java 语言编写，这意味着我们必须注意堆内存的设置。

03

E往无前 | 日志成本下降25%+！腾讯云大数据ES Lucene压缩编码深度优化大揭秘

《E往无前》系列将着重展现腾讯云大数据ES在持续深入优化客户所关心的「省！快！稳！」诉求，能够在低成本的同时兼顾高可用、高性能、高稳定等特性，可以满足微盟、小红书、微信支付等内外部大客户的核心场景需求。 E往无前 | 日志成本下降25%+！腾讯云大数据ES Lucene压缩编码深度优化大揭秘导语：Lucene作为Elasticsearch的底层索引引擎，提供了灵活的数据检索能力。但在日志数据领域，Lucene现有的设计导致数据膨胀较为严重，本文介绍了关于Lucene底层文件格式的系统性优化思路。这些优化特

02

科普向 | Lucene，Solr，Elasticsearch之间的区别和联系

最近有幸研究到了这块领域的内容，而我本人也对于这块非常的感兴趣，所以打算写一篇文章记录一下…

01

ES学习分享

Elasticsearch是一个基于Apache Lucene的开源搜索引擎，通过简易的API来隐藏Lucene的复杂性。ES的基本结构包括，Cluster集群(由n个节点组成)，Node实例节点，Index索引(一系列documents的集合)，Shard分片(索引的数据是分配到各个分片的)，Replica备份节点(相应有Primay Shard主分片)

04

【Elasticsearch系列之二】ES数据存储可靠性和写入流程介绍

当一个文档写入Lucence后是存储在内存中的，即使执行了refresh操作仍然是在文件系统缓存中，如果此时服务器宕机，那么这部分数据将会丢失。为此ES增加了translog，当进行文档写操作时会先将文档写入Lucene，然后写入一份到translog，写入translog是落盘的(如果对可靠性要求不是很高，也可以设置异步落盘，可以提高性能，由配置index.translog.durability和index.translog.sync_interval控制)，这样就可以防止服务器宕机后数据的丢失。由于translog是追加写入，因此性能比较好。与传统的分布式系统不同，这里是先写入Lucene再写入translog，原因是写入Lucene可能会失败，为了减少写入失败回滚的复杂度，因此先写入Lucene。

02

ES报错赏析

2. 停机修复：https://www.elastic.co/guide/en/elasticsearch/reference/current/shard-tool.html

05

[全文检索]Lucene基础入门.

本打算直接来学习Solr, 现在先把Lucene的只是捋一遍. 本文内容: 1、搜索引擎的发展史 2、 Lucene入门 3、 Lucene的API详解 4、索引调优 5、 Lucene搜索结果排名规则 1 搜索引擎的发展史 1.1 搜索引擎的发展史萌芽：Archie、Gopher 起步：Robot（网络机器人）和spider（网络爬虫） 1、 Robot：网络机器人，自动在网络中运行，完成特定任务的程序，如刷票器、抢票软件等。 2、 spider：网络爬虫，是一中特殊的机器人，抓取（下载）并分析网

08

Lucene的几点索引建设优化

现如今越来越多的人使用Lucene来开发自己的搜索引擎，在数据量不大的情况下，我们一般不会太关注创建索引的效率，但是，当数据达到一定的数量时候，我们就必须要考虑如何的去提高创建索引的性能，以减少创建索引的时间。

01

ElasticSearch入门之风花雪月（五）

以前经常有人问散仙，如何学好搜索？其实这个问题很具有代表性，你可以归纳为一类问题？其实，散仙在以前博客的中，也有总结过，回复微信后台回复关键词10查看。本篇散仙要介绍的内容，是关于如何用Luke查看ElasticSearch的索引，那么为什么会写如此一篇文章呢？相信学过或了解过全文检索的朋友们，都知道，搜索的核心的就是倒排索引，之所以我们能够使用Google在互联网的海量的数据中，通过关键词快速定位到我们想要的数据，就是因为倒排索引在这里起了非常大的作用，在搜索中索引通常是不可见的，我

02

白话Elasticsearch63-生产集群部署之硬件配置、jvm以及集群规划建议

es吃内存，es吃的主要不是你的jvm的内存，一般来说es用jvm heap（堆内存）还是用的比较少的，主要吃的是你的机器可用的剩余内存

02

Elasticsearch 集群某一节点修改 IP 后无法启动问题复盘

节点换 IP 原因探讨：宿主机服务器的IP地址和别的服务器IP 冲突，所以要修改一台服务器的 IP地址。

02

【黄啊码】什么是ElasticSearch？它会替代MySQL成为主流吗？如何优化？TP5如何接入ElasticSearch？

Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值。

01

【黄啊码】什么是ElasticSearch？它会替代MySQL成为主流吗？如何优化？TP5如何接入ElasticSearch？

Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值。

00

搜索 ES 数据写入原理

最近 TL 分享了下《Elasticsearch基础整理》https://www.jianshu.com/p/e82... ，蹭着这个机会。写个小文巩固下，本文主要讲 ES -> Lucene 的底层结构，然后详细描述新数据写入 ES 和 Lucene 的流程和原理。这是基础理论知识，整理了一下，希望能对 Elasticsearch 感兴趣的同学有所帮助。

03

详解Elasticsearch 的性能优化

Elasticsearch（后文简称 ES）的基础是 Lucene，所有的索引和文档数据是存储在本地的磁盘中，具体的路径可在ES 的配置文件../config/elasticsearch.yml中配置，如下：

02

图解 ElasticSearch 原理，写得太好了!

Elasticsearch 是一款功能强大的开源分布式搜索与数据分析引擎，目前国内诸多互联网大厂都在使用，包括携程、滴滴、今日头条、饿了么、360 安全、小米、vivo 等。

02

Elasticsearch 数据写入原理 | 原创不易

最近 TL 分享了下《Elasticsearch基础整理》https://www.jianshu.com/p/e82... ，蹭着这个机会。写个小文巩固下，本文主要讲 ES -> Lucene 的底层结构，然后详细描述新数据写入 ES 和 Lucene 的流程和原理。这是基础理论知识，整理了一下，希望能对 Elasticsearch 感兴趣的同学有所帮助。

04

《Elasticsearch 源码解析与优化实战》第7章：写流程

本章分析ES写入单个和批量文档写请求的处理流程，仅限于ES内部实现，并不涉及Lucene内部处理。在ES中，写入单个文档的请求称为Index请求，批量写入的请求称为Bulk请求。写单个和多个文档使用相同的处理逻辑，请求被统一封装为BulkRequest。

06

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭