不带html css标记的Lucene索引_是否有Lucene的HTML分析器/标记器？_扩展不带< wicket :子/>标记的基本wicket html - 腾讯云开发者社区

、、、

我正在使用lucene使用java编程语言来索引我的数据。但是，当我检索lucene索引的术语时，它们与html这样的标签一起出现(html被认为是一个术语，而不是一个标签，lucene不会删除它)。有没有像英语分析器这样的代码或库可以移除所需的html标签？

浏览 13提问于2019-10-12得票数 0

3回答

有用于Lucene的HTML分析器/标记器吗？

我想从html中索引文本，在Lucene中，实现这一点的最佳方法是什么？编辑最后使用了杰里科·帕瑟。它不创建DOM，而且易于使用。

浏览 1提问于2011-03-11得票数 10

回答已采纳

1回答

亲爱的StackOverFlow开发人员，我需要你们的帮助。我被卡住在Apache lucene中，以便在java swing应用程序中使用。这个问题太复杂了，连我都不知道该怎么问。请试着了解我的实际需求是什么。情况很简单，我必须提供html文件，以便客户端可以在swing应用程序中访问它们，并且为了搜索工具，我决定使用apache lucene索引。这为我提供了搜索工具，但现在我想显示匹配搜索条件的html文件数据。在java AP

浏览 8提问于2012-10-04得票数 1

2回答

Mediawiki + Lucene:如何剥离标记？

、、

我将Lucene search extension ()集成到我的mediawiki安装中。不过，这一切都运行得很好-- lucene似乎也索引了所有的媒体维基/html标记，并在结果中显示出来。例如，搜索“绿色”将返回带有如下标记的结果：“style=”背景:绿色；颜色:白色有没有办法剥离搜索结果中的所有标记？我相信维基百科使用了同样的搜索插件，他们是怎么做到的呢？

浏览 0提问于2009-04-22得票数 2

2回答

为文档编制索引

、、、

如果我希望在java中为一个文档(HTML)建立索引，并计算索引的数量，Lucene是可行的吗？我有种感觉，Lucene只是一个搜索引擎。真的非常感谢

浏览 3提问于2011-03-02得票数 0

回答已采纳

1回答

Lucene如何索引not_analyzed字段

、

对于分析字段，Lucene将对子句进行标记化，然后将标记存储为用于搜索的倒排索引。但是Lucene是如何索引Not_Analyzed字段的，我不认为它仍然是一个倒排的索引。是BTree还是Hash？

浏览 0提问于2015-11-17得票数 0

回答已采纳

2回答

Zend Lucene -标记化瑞典字符

、、、

我使用Zend Lucene来索引瑞典语文本。问题是lucene将单词标记化为瑞典语chars atäö。例如，单词“världen”在索引中变成了两个单词"v“和”lden“。有没有一种方法可以添加zend lucene应该接受而不是标记的字符？

浏览 4提问于2009-12-30得票数 4

回答已采纳

1回答

什么是elasticsearch指数，Lucene指数和倒排指数？

、

有时，我在lucene索引和反向index.From之间感到困惑，我的知识倒置索引包含单个标记，elasticsearch索引包含碎片。那么什么是lucene索引，它包含什么？

浏览 6提问于2022-04-10得票数 0

回答已采纳

2回答

不需要索引的Lucene - string字段

、

(目前使用Lucene 4.6)。只是想知道为什么在没有索引的org.apache.lucene.document.Document中存储文本信息似乎是不可取的。TextField被索引并标记化。StringField是索引的，但没有标记。但是，假设您只需要一个String，它与您的org.apache.lucene.document.Document中的其他信

浏览 2提问于2016-05-29得票数 7

回答已采纳

2回答

大型XML文件的Apache Lucene索引

、

我是lucene的新手，我想用lucene索引包含纯文本以及属性和如此多的xml标记的大型xml文件(15 so )。如何使用lucene对这个xml文件进行解析和索引，如果我们使用lucene，我们需要任何数据库如何使用lucene解析和索引巨大的xml文件？任何样本或链接将有助于我理解这一过程。另一个问题是，如果我使用lucene，我是否需

浏览 1提问于2013-06-20得票数 2

3回答

Lucene中的标记二元组索引

、

我需要在Lucene中索引单词(标记)的二元组。我可以生成n-gram，然后对它们进行索引，但我想知道Lucene中是否有什么东西可以为我做这件事。我发现Lucene只索引n元字符。有什么想法吗？

浏览 4提问于2009-03-17得票数 6

2回答

对Lucene.net中的可选字段排序

、、、

我有一个Lucene指数：我需要按标题和标签字段对搜索结果进行排序。目前，如果索引中没有一个文档包含标记字段，则搜索将抛出一个SystemException：“field”标记“似乎没有索引”。我知道这种行为是故意的。是否有一种方法可以告诉Lucene，如果它存在的话，可以根据标记字段进行排序？

浏览 2提问于2011-06-15得票数 0

回答已采纳

2回答

Lucene可以从一个索引文件返回多个搜索结果吗？

、、、

我正在使用Lucene索引和搜索少量的大型文档。使用Lucene站点的演示，我已经将文档编入索引并能够搜索它们。但是，搜索结果并不特别有用，因为它指向文档的文件。对于非常大的文档，这并不特别有用。如果有什么不同，我使用的是JavaLucene2.9.0，并且索引HTML文件的大小约为1MB - 4MB。它在文件大小方面不是很大，但它相对于阅读它的人来说是很大的。

浏览 5提问于2009-11-18得票数 8

回答已采纳

2回答

将索引文本与用户生成的标签相结合的搜索引擎

、、

我需要一个可定制的搜索引擎，结合非结构化HTML文档的正常索引与用户生成的标签，为每个web应用程序的文件。我已经有了一个为每个标签分配分数的算法，我想把文档相关标签的权重与搜索引擎的索引系统结合起来。

浏览 0提问于2011-04-01得票数 0

回答已采纳

2回答

怎样才能满足我的需要？

我有一个包含多个文档的大型XML文件(如果需要的话，这可以很容易地转换成多个文档)。这个庞大XML的文件大小约为4GB。我需要索引它，以便更好和更快的搜索用户。此外，我还使用XSLT来转换这些数据。下面是我的基本XML结构- <Doc> <Desc></Desc> <Info></In

浏览 1提问于2013-08-09得票数 0

回答已采纳

2回答

Zend_Search_Lucene -无法创建目录“/data/user_index”

、、、

我在用Zend_Search_Lucene创建索引时遇到了问题。$index = Zend_Search_Lucene::create('/data/users_index');public_html publi

浏览 2提问于2009-08-11得票数 2

回答已采纳

4回答

StackOverflow是否使用Lucene进行标记搜索？

、、、

那么是如何实现标签搜索的呢？它是否使用Lucene或任何其他开源搜索引擎库进行标记搜索？搜索文档(PDF、XML、HTML、MS Word)或数据库的最佳方式是什么？

浏览 0提问于2009-04-26得票数 0

6回答

如何识别文件夹中是否存在Lucene.Net索引？

、、、、

我使用Lucene.Net对文档进行索引和搜索，并使用以下代码创建或打开索引(如果存在)：} 现在，如何以一种简单的方式实现IndexExists呢？我不需要抛出任何异常。

浏览 0提问于2009-06-16得票数 21

回答已采纳

1回答

Lucene指数:术语计数

、、

我需要基于lucene索引的特定标记/关键字创建标记云。我注意到，Luke (一个查看lucene索引的工具箱)具有计数频率/计数一词的功能。这是可能的，我手动计算术语的频率，但表现将非常糟糕，

浏览 3提问于2013-06-11得票数 1

5回答

lucene索引中的关键字访问列表

我们计划使用lucene作为FTI服务。其中，我们希望基于文档的标记属性构建标记索引，该标记属性仅包含以空格分隔的标记。现在，为了建议标签补全，如果有一种方法可以访问给定索引的所有唯一关键字，那就太好了。Lucene必须能够在内部做到这一点，因为它使用它来完成like查询，并使用OR重写它们。有什么建议吗？

浏览 1提问于2009-06-17得票数 2

点击加载更多