Lucene索引HTML标题

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

0回答

、、

我想索引HTML文件，并能够在收到搜索结果后跳转到相应的标题。 return new TokenStreamComponents(source, result);} 方法indexMyFile获取一个超文本标记语言文件的路径并创建索引文档中添加一个新的TextField，但是我目前不知道这段代码的标题。有没有办法使用Lucene，这样我就可以将内容链接到当前的标题和文件名

浏览 1提问于2018-07-17得票数 0

1回答

Lucene.Net搜索文件名/路径

、、、

我第一次尝试用Lucene.Net当im在内容和/或标题中搜索时，所有操作都很好。索引和搜索使用WhitespaceAnalyzer。使用StandardAnalyzer，当我搜索"/kontakt/index.aspx“时，结果为零。analyzer = new WhitespaceAnalyzer(); MultiFieldQueryParser

浏览 2提问于2016-12-09得票数 1

1回答

Zend Lucene字段相关性

可以设置Zend Lucene索引的字段的相关性吗？我有一个文章搜索，搜索标题，作者和正文，但是，尽管标题是索引的，当我按标题搜索时，我没有得到文章。我想对Lucene说给这个标题更高的相关性

浏览 0提问于2009-11-02得票数 1

回答已采纳

1回答

查找非索引文档/字符串中的索引项

对不起，如果我在这里使用了错误的术语，我就不熟悉Lucene :D假设我正在访问一个新闻网站。在这篇文章中，我希望将所有短语(与维基百科中的标题相匹配)转换为维基百科页面的链接。澄清一下:我不想把新闻文章放到Lucene索引中，而是使用索引WP标题来查找给定字符串(文章)中的匹配项。我们也不想费心于JS/HTML的东西，现在只关注Lucen

浏览 0提问于2019-10-17得票数 0

回答已采纳

3回答

关联相似文章的最佳算法

、、

我只能在短文上，比如文章的标题，而不是文章本身上有关联。我读了一篇论文，其中谈到了两个或三个单词的元组(最好用三个)来提取，并用它来产生一个分数来达到相关性，但这对我来说太学术了

浏览 0提问于2011-11-22得票数 2

回答已采纳

1回答

我使用Lucene.NET 3.0.3索引word-、excel-等文档的内容以及每个文档的一些自定义字段。如果我索引一个名为Field.Index.NOT_ANALYZED的"title"字段，则Lucene索引以正确的形式存储该字段。洞标题存储在一个令牌中。这就是我想要的。例如，文档的标题是"Lorem dolor" Lucene索引中的字段："Lorem ipsum dolor&

浏览 1提问于2013-11-07得票数 0

回答已采纳

2回答

Lucene.NET中搜索结果的优先级

、、、

我有一个Lucene.net索引，它有"title“、"description”之类的字段。对于搜索，我使用TopScoreDocDollector。如果我搜索结果是按Lucenes分数排序的。现在，一些结果有相同的分数，Lucene将文档按分数排序，然后按索引中的创建日期排序。我希望先按Lucene评分排序，然后再按“-field”的“标题”得分排序。有这样的事吗？我只找到了一种方法，首先按Lucene分数排序，然后按标题按字母

浏览 1提问于2013-11-15得票数 1

1回答

Lucene.vectors:如何设置标签字段

、

我正在尝试使用mahout的lucene.vectors从lucene索引中提取数据。该索引包含由Nutch抓取的网页内容。被索引的一些字段是:标题、url、id、文本和类别。我知道我可以使用lucene.vectors从索引中获取数据并将其转换为向量。然而，我不能理解的是，如何告诉这个工具Lucene中的哪个字段包含标签。

浏览 1提问于2014-06-05得票数 0

1回答

项与场的Lucene差

、、

我读过很多关于Lucene索引和搜索的文章，但仍然不明白什么是术语?术语和字段之间有什么区别？

浏览 3提问于2020-09-20得票数 3

回答已采纳

1回答

带dcs的远程lucene* indec群集*

、、

我尝试使用远程服务器上的lucene索引作为安装在同一台服务器上的carrot2的输入。关于文档，使用carrot2-dcs应该是可能的(文档第3.4章Carrot2文档集群服务器:包括各种文档源。Carrot2文档聚类服务器可以从大量来源获取文档并对其进行聚类，包括主要的搜索引擎和索引引擎(Lucene，Solr)。在安装carrot2-dcs 3.9.3之后，我发现lucene不能作为文档源。如何继续？

浏览 6提问于2014-08-18得票数 0

2回答

Lucene:文件是存在的，而不能使用QueryParser获得它

基本上，我索引了85k html文件(google结果页面和关键词是不同的大学名称)，我在lucene索引中使用每个页面的标题作为一个名为" title“的字段。然而，当我将关键字改为"duquesne"时，我可以用标题得到一个结果：“标题:Duquesne Google ”--为什么会发生这种情况？从第二次尝试，我可以看出这个文件的标题是杜克纳Univeristy索引，但我不能从第一次尝试。许多Thx!

浏览 2提问于2014-01-14得票数 0

回答已采纳

2回答

如何在Lucene索引中从字符串字段中搜索单词

、

如何从Lucene索引字符串字段中搜索单词？电视不工作，移动不工作我想从标题中搜索特定的单词。下面的代码给出了完整内容的结果，如果我将FULL_CONTENET更改为标题，则不会得到任何结果。

浏览 5提问于2013-05-13得票数 2

回答已采纳

3回答

Lucene索引html文档

、

我想用Lucene索引100万个html文档。我需要在一个Lucene文档中索引几个html文件。最近，我想在搜索响应中知道原来的html文档。所以，例如，我有：2.history.html... 我想在同一个Lucene文档中索引1、2和3。我一直在网上搜索，我找到了Luc

浏览 4提问于2013-07-07得票数 0

回答已采纳

2回答

Lucens做“开始”查询的最佳方法

、

我希望能够执行以下类型的查询：有一些“解决办法”来模拟这种行为：索引字段两次。在对字段进行索引</em

浏览 4提问于2013-02-21得票数 4

回答已采纳

1回答

是否从Lucene索引中排除页脚、页眉和导航？

、、

他使用Lucene作为站点搜索的引擎，以完整的HTML形式索引所有页面：(为了清晰起见，省略了一些部分)$doc = Zend_Search_Lucene_Document_Html::loadHTML($html($doc); 问题是，网站

浏览 0提问于2011-07-28得票数 1

回答已采纳

1回答

如何使用Zend_Search_Lucene作为Zend之外的独立组件？

、、

由于使用优化()方法对Zend_Search_Lucene索引文件的优化过程需要几秒钟才能完成，因此我希望创建一个Cron作业，以便索引文件的优化过程每天都能自动完成。但我无法在Zend之外单独使用Zend_Search_Lucene组件。我已经创建了Zend_Search_Lucene索引文件。我在trunk>public>test.php中分别编写了以下代码，以优化现有的Zend_Search_Lucene索引文件：

浏览 6提问于2016-01-09得票数 0

回答已采纳

2回答

如何将pdf、ppt、xl、doc文件转换为txt/html文件.在php/python/perl中有开放源码工具/代码吗？

、、、

我的最终目标是使用lucene对文档进行索引。因为lucene不支持索引其他格式。我希望将这些文件转换为txt/html (lucene可索引文件类型)。

浏览 3提问于2010-04-14得票数 2

2回答

lucene -赋予更多的权重越接近标题开头的术语

、

我知道如何在索引时或查询时提升字段。但是，我如何才能提高匹配离标题开头更近的术语的分数？示例：Doc2 title = "I have a question about lucene?"我希望第一个文档得分更高，因为"lucene“更接近开头(现在忽略术语freq )。我了解了如何使用SpanQuery来指定术语之间

浏览 2提问于2013-03-01得票数 11

回答已采纳

1回答

不带html* css标记的Lucene索引*

、、、

我正在使用lucene使用java编程语言来索引我的数据。但是，当我检索lucene索引的术语时，它们与html这样的标签一起出现(html被认为是一个术语，而不是一个标签，lucene不会删除它)。有没有像英语分析器这样的代码或库可以移除所需的html标签？

浏览 13提问于2019-10-12得票数 0

1回答

推荐的标题boost？

、

我有一个相对简单的Lucene索引，由Solr提供服务。索引由两个主要字段组成，标题和正文，以及一些不太重要的字段。我的问题是，人们通常使用什么值作为标题字段? 2? 4? 10? 100？

浏览 0提问于2009-03-25得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云