字根中文校对软件-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

字根中文校对软件

专栏成员

188

文章

194043

阅读量

44

订阅数

Lucene 1.9 改进特性列表

lucene/solr java 数据结构编程算法 analyzer

注：lucene2.0发布版本并不是100%的和 1.4.3 版兼容。也就是说在你用2.0版本的Lucene开发包替换原来的1.4.3版本时，应该让你的应用程序首先和1.9的兼容。

田春峰-JCJC错别字检测

2022-05-07

4010

介绍 Nutch 第一部分：抓取（翻译）

爬虫 lucene/solr 网站搜索引擎 http

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。可以为什么我们需要建立自己的搜索引擎呢？毕竟我们已经有google可以使用。这里我列出3点原因：

田春峰-JCJC错别字检测

2022-05-07

8520

Compass Framework 0.8 + Lucene Jdbc Directory (翻译tss)

数据库 sql jdbc http lucene/solr

发布者：Shay Banon on January 10, 2006 @ 08:24 PM

田春峰-JCJC错别字检测

2022-05-07

2530

一种面向搜索引擎的中文切分词方法

搜索引擎 lucene/solr

首先说一下搜索引擎切分词的产生的原因。在进行全文检索时，首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表（索引）。当输入检索语句后，也同样进行分割，与索引进行比较。也就是说，两者即使包含有同样的文字排列，但分割方法不同的话也不能正确检索。文字的分割方法主要有两种，分别是词语解析索引和文字索引。词语解析索引是按照字典中最小的词语单位对文本进行分割，既按词义切分。如中科院的 ICTCLAS。文字索引是不考虑文本中词的意义，只是按照一定的字长的单位进行切分。如车东的二元切分法。

田春峰-JCJC错别字检测

2019-02-14

1.3K0

不同规则的中文分词对Lucene索引的影响

analyzer lucene/solr 搜索引擎

田春峰欢迎订阅作者微博

田春峰-JCJC错别字检测

2019-02-14

7970

怎么会是lucene?

lucene/solr http 搜索引擎 java 数据库

在好朋友lhelper的帮助下，开始学习全文搜索引擎lucene了。从网上搜索了一些全文搜索的资料后发现这方面的产品很多，光是在http://www.searchtools.com 上你可以查到100多个搜索的工具（包括源代码）。如果你在百度上以“全文搜索”为关键字搜索的话，会发现除了理论上的介绍以外，大部分的实例都是来自lucene。为什么只有lucene这么广为接受呢？

田春峰-JCJC错别字检测

2019-02-14

3680

基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )

编程算法 lucene/solr 搜索引擎

这个分词程序是文舫工作室贡献出来的。强烈推荐看看文舫工作室的开发日志，他们的激情可以鼓励很多人...... 自从小叮咚分词程序发布后，很多软件行业的朋友们都来信索取，因为定位的问题，所以小叮咚的分词程序和 ICTCLAS的算法完全不同的。小叮咚的分词程序的定位是为搜索引擎服务的。可以参考：一种面向搜索引擎的中文切分词方法 ICTCLAS和基于最长词匹配算法变形的分词系统是面向语法，语义的。不同的应用导致了不同的分词算法，但是正如车东所说的，我们现在应该跳过分词这个点，面向分词应用了。我很赞同。如果大家需要基于最长词匹配算法变形的分词系统的代码，可以到这个页面下载申请书，填写后我会给你发送一份相关代码。关于分词文德是专家，大家可以下载 Lucene使用者沙龙中的录音，听听他对分词的一些经验。这些申请书会在以后整理出来共享的。相关连接：文舫工作室的网址 Lucene使用者沙龙

田春峰-JCJC错别字检测

2019-02-14

5340

关于lucene发展和多语言实现的方向

lucene/solr java

多语言lucene的发展无疑是基于java lucene的。一切的功能特性和兼容性的问题都要以java lucene为主。java lucene是其他语言lucene发展的鼻祖。那么多语言lucene的发展应该怎么办呢？看看下面的文字吧：

田春峰-JCJC错别字检测

2019-02-14

4550

Solr 企业级搜索引擎简介

xml http lucene/solr 搜索引擎

Solr 是一个独立的企业级搜索引擎服务器，并提供类似web-service 的API接口。可以通过http协议把文档以xml格式的方式放入索引库。同样通过HTTP的GET协议接收XML格式的文档。

田春峰-JCJC错别字检测

2019-02-14

1.3K0

不选择使用Lucene的6大原因

lucene/solr java 编程算法搜索引擎

Lucene是开放源代码的全文搜索引擎工具包，凭借着其强劲的搜索功能和简单易用的实现，在国内已经很普及，甚至一度出现了言搜索必称Lucene的盛景。上个月Lucene的开发团队发布了 Java Lucene 2.3.1 ，相信很多朋友们都用上了。在国内对Lucene的介绍可以分为3块儿：第一类是：以车东的Lucene：基于Java的全文检索引擎简介为代表的基础入门介绍；第二类是Lucene倒排索引原理和Lucene软件包、实现类的介绍；第三类是以中文分词为中心的介绍；任何一个软件，包括所有伟大的软件都有这样或者那样的“缺点”和各自适用的领域，Lucene也不例外。在国内对Lucene这个软件包的批评，似乎没有看到过。可能大家都忙于做项目，纵然Lucene有再大的缺陷，凭借着Lucene良好的口碑，也不会说上一句不是。今天在阅读LingWay （一个做垂直的语义搜索引擎）的CTO Cedric Champeau 先生的博客是发现有一篇题为：Why lucene isn't that good 为什么Lucene并不是想象的那么棒的文章：Champeau 开门见山指出了Lucene的6大不足之处，鉴于 Lingway 公司使用Lucene已有好几年的历史，我相信Cedric Champeau的对Lucene的评论还是值得一读。不选择使用Lucene的6大原因： 6、Lucene 的内建不支持群集。 Lucene是作为嵌入式的工具包的形式出现的，在核心代码上没有提供对群集的支持。实现对Lucene的群集有三种方式：1、继承实现一个 Directory；2、使用Solr 3、使用 Nutch+Hadoop；使用Solr你不得不用他的Index Server ，而使用Nutch你又不得不集成抓取的模块； 5、区间范围搜索速度非常缓慢； Lucene的区间范围搜索，不是一开始就提供的是后来才加上的。对于在单个文档中term出现比较多的情况，搜索速度会变得很慢。因此作者称Lucene是一个高效的全文搜索引擎，其高效仅限于提供基本布尔查询 boolean queries； 4、排序算法的实现不是可插拔的，因为贯穿Lucene的排序算法的tf/idf 的实现，尽管term是可以设置boost或者扩展Lucene的Query类，但是对于复杂的排序算法定制还是有很大的局限性； 3、Lucene的结构设计不好； Lucene的OO设计的非常糟，尽管有包package和类class，但是Lucene的设计基本上没有设计模式的身影。这是不是c或者c++程序员写java程序的通病？ A、Lucene中没有使用接口Interface，比如Query 类( BooleanQuery, SpanQuery, TermQuery...) 大都是从超类中继承下来的； B、Lucene的迭代实现不自然：没有hasNext() 方法, next() 返回一个布尔值 boolean然后刷新对象的上下文； 2、封闭设计的API使得扩展Lucene变得很困难；参考第3点； 1、Lucene的搜索算法不适用于网格计算；详情可以查看：Cedric Champeau 先生的博客：Why lucene isn't that good 为什么Lucene并不是想象的那么棒

田春峰-JCJC错别字检测

2019-02-14

1.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态