首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

使用PostgreSQL进行中文全文检索 转

分词功能 PgSQL 内置了英文、西班牙文等,但中文分词需要借助开源插件 zhparser; SCWS 要使用 zhparser,我们首先要安装 SCWS 分词库,SCWS 是 Simple Chinese...Word Segmentation 的首字母缩写(即:简易中文分词系统),其 GitHub 项目地址为 hightman-scws,我们下载之后可以直接安装。...安装完后,就可以在命令行中使用 scws 命令进行测试分词了, 其参数主要有: -c utf8 指定字符集 -d dict 指定字典 可以是 xdb 或 txt 格式 -M 复合分词的级别, 1~15,...使用 scws 带的scwe-gen-dict 工具或网上找的脚本生成 xdb 后放入词库文件夹后,在 PgSQL 中分词一直报错,读取词库文件失败。...词性,词是必须的,而 TF 词频(Term Frequency)、IDF 反文档频率(Inverse Document Frequency) 和 词性 都是可选的,除非确定自己的词典资料是对的且符合 scws

1.9K20

【迅搜17】SCWS分词(二)自定义字典及分词器

SCWS分词(二)自定义字典及分词器 经过上篇文章的学习,相信大家对分词的概念已经有了更深入的了解了吧。我们也知道了,SCWS 是 XS 中的一个重要组成部分,但它也是可以单独拿出来使用的。...今天,我们主要来学习的就是 SCWS 字典相关的一些配置。此外,还有自定义分词器的实现。 自定义字典 上回已经说过,SCWS 有提供一个非常小的,但词汇量非常大的字典。...SCWS 在命令行还提供了一个 scws-gen-dict 工具。和上篇文章中我们命令行操作 scws 的工具是放在一起的。...这里我就不演示了,SCWS 还是比较智能的,普通的 txt 文件其实大部分情况下还是能满足需求的。 接下来咱们测试一下。 php ....在索引配置文件中,我们之前说过有默认的 scws、full、split、none、xlen、xstep 这几种分词类型。

13510

使用PostgreSQL进行中文全文检索

分词功能 PgSQL 内置了英文、西班牙文等,但中文分词需要借助开源插件 zhparser; SCWS 要使用 zhparser,我们首先要安装 SCWS 分词库,SCWS 是 Simple Chinese...Word Segmentation 的首字母缩写(即:简易中文分词系统),其 GitHub 项目地址为 hightman-scws,我们下载之后可以直接安装。...安装完后,就可以在命令行中使用 scws 命令进行测试分词了, 其参数主要有: -c utf8 指定字符集 -d dict 指定字典 可以是 xdb 或 txt 格式 -M 复合分词的级别, 1~15,...使用 scws 带的scwe-gen-dict 工具或网上找的脚本生成 xdb 后放入词库文件夹后,在 PgSQL 中分词一直报错,读取词库文件失败。...参考: PostgreSQL系统配置优化 [PG]使用 zhparser 进行中文分词全文检索 SCWS 中文分词 Fast Search Using PostgreSQL Trigram Indexes

2.6K120

11款开放中文分词引擎大比拼

比较有意思的是,对比其他数据源,有3家系统都在汽车论坛领域达到最高:腾讯文智、SCWS中文分词、结巴分词。...将 可能 有 一 位 沙特阿拉伯 的 女子 (BosonNLP、新浪云、语言云、NLPIR、腾讯文智) 错误: 在 伦敦 奥运会 上将 可能 有 一 位 沙特阿拉伯 的 女子 (PHP结巴分词、SCWS...大多数的系统对于示例文本的分词结果都不够理想,例如:“大肚 腩”(SCWS中文分词) “腹 直 肌 腹 外 斜 肌”(搜狗分词、IKAnalyer、NLPIR、SCWS中文分词)、“人 鱼线”(PHP结巴分词...其中搜狗分词、IKAnalyer、PHP结巴分词、腾讯文智、SCWS中文分词在新词识别时较为谨慎,常将这类专有名词切分成多个词语。...在分词颗粒度选择当中,BosonNLP、SCWS、盘古分词、结巴分词、庖丁解牛都提供了多种选择,可以根据需求来采用不同的分词粒度。

2.6K91

【迅搜02】究竟什么是搜索引擎?正式介绍XunSearch

除了 Xapian 之外,XS 还一道封装好了 hightman 大佬开发的中文 SCWS 分词器。相当于一个 XS 就是 Xapina+SCWS+PHP SDK 的组合。...倒排索引、分词的概念与原理 排序、相关度评分的算法概念 XS 的使用(PHP SDK工具、PHP SDK全部功能使用等) SCWS、Xapian 的学习 现在知道为什么上篇文章中我会说咱们这一套文章和视频可能会是全网唯一了...,因为咱们不只讲 XS 的使用,还要简单地学习一下 SCWS 和 Xapian ,并且通过这些再顺道一起学习搜索引擎相关的一些基础知识。...数据量越大,分布分片节点越多,与其它相比性能就越好 高 非常高,单索引亿级也能快速搜索 增量索引 支持 支持 支持 增量支持度一般,但全量MySQL生成索引非常快,与MySQL等配合紧密 中文支持 自带SCWS...“项”按正常的分词器,不管是 IK 还是 SCWS ,都不会当成一个单词,也就不会为它建立倒排索引,这样就无法查询到。

28040

见招拆招-PostgreSQL中文全文索引效率优化

- 使用B树索引优化查询效果 分词问题 一开始是分词效果的问题: 中文博大精深,乒乓球拍卖啦、南京市长江大桥 这种歧义句的分词,还没有一个分词插件能够达到 100% 的准确率,当然包括我们正在使用的 scws...分词库; 我们的搜索内容是 Poi 地点名,而很多地点名都缺失语义性,产生歧义词的概率更大; scws 支持更为灵活的分词等级,为了能分出较多的词来尽量包含目标结果,我们将 scws 的分词等级调为了...当时有三种方案: 修改开源分词库 scws,添加一个分前缀词的功能。不过我担心改出 Bug,而且还要改 PostgreSQL 的分词插件 zhparser 以适应 scws 的参数变动。

2.1K80

【迅搜03】全文检索、文档、倒排索引与分词

虽说这两个现在很流行,很出名,但咱们的 XS 所使用的 SCWS ,则是还没有它们的时候就已经存在的,通过 C/C++ 开发的一款优秀分词器。...我所在的公司使用 Solr 作为搜索引擎,而当时配合 Solr 的分词器就是 SCWS 。 还有更早的,我刚毕业时做过一年 C# ,也就是 ASP.NET 开发,大概是 2009 年。...所幸,上面的那些分词器,Jieba、IK,以及我们主要要学习的 SCWS ,在形式、功能上都非常相似。就和搜索引擎一样,不管是 ES 还是 XS ,最终都是要实现全文检索的,也要做倒排索引的。...因此,学完 XS 的分词以及 SCWS 的分词相关内容后,再看 Jieba 或者 IK 都能很快上手的。...不管是 XS 的 SCWS 还是 ES 的 IK ,都不会将“项”作为一个单词拆分出来加入到倒排表中。如果要实现可以索引这个单字的话,那么就需要做成单字倒排索引。

23610

【迅搜05】索引配置(二)字段定义与设计

tokenizer分词器 XS 除了默认的 SCWS 分词之外,还可以在索引配置中为指定的字段设置不同的分词器。...就会被分成 AB + CD + EF xstep(arg) 表示根据 arg(数字)按步长分段取词,比如 xstep(2),对 ABCDEF 分词的话就是 AB + ABCD + ABCDEF 这样 scws...(arg) 表示采用 arg(数字)参数指定的数量作为复合等级的 SCWS 分词配置(如果没有特殊的复合要求,就不要指定),这个等深入学习分词时再说 还有一个默认值 default ,其实就是 scws...默认情况下 id 会是 full ,而 title 和 body 以及其它类型都是 scws 。...对于 phrase 的设置,因为这里的分词使用的不是 SCWS 默认分词,所以,phrase 的配置不会生效,大家可以自己试试哦。

13700

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券