开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

tsvector

tsvector 是 PostgreSQL 数据库中的一个数据类型，用于存储预处理的全文搜索文本。它是 PostgreSQL 全文搜索功能的基础组成部分，能够对文本进行分词、去除停用词等预处理操作，从而提高全文搜索的效率。

基础概念

全文搜索：与简单的字符串匹配不同，全文搜索能够理解文本中的单词和短语，并支持复杂的查询操作，如近义词搜索、模糊匹配等。
分词：将文本拆分成单独的单词或词汇单元的过程。这是全文搜索的重要步骤，因为搜索引擎需要识别文本中的每个单词来进行匹配。
停用词：在全文搜索中，一些常见且对搜索意义不大的词汇（如“的”、“是”等）会被忽略，以提高搜索效率。

tsvector 的优势

高效的全文搜索：通过预处理文本，tsvector 能够显著提高全文搜索的速度和准确性。
灵活的查询方式：支持多种查询操作，包括精确匹配、模糊匹配、近义词搜索等。
可扩展性：可以自定义词典和配置，以适应不同领域和语言的需求。

类型与应用场景

类型：tsvector 是一种特定的数据类型，用于存储预处理后的全文搜索文本。
应用场景：适用于需要全文搜索功能的各种应用，如博客文章搜索、产品目录搜索、文档检索等。

常见问题及解决方法

如何创建 tsvector 列？

CREATE TABLE articles (
    id SERIAL PRIMARY KEY,
    title TEXT,
    content TEXT,
    search_vector TSVECTOR
);

如何更新 tsvector 列？

UPDATE articles SET search_vector = to_tsvector(title || ' ' || content);

如何进行全文搜索查询？

SELECT * FROM articles WHERE search_vector @@ to_tsquery('search & term');

遇到的问题：搜索结果不准确或不相关。

示例代码

以下是一个简单的示例，展示如何使用 tsvector 和 tsquery 进行全文搜索：

-- 创建表
CREATE TABLE products (
    id SERIAL PRIMARY KEY,
    name TEXT,
    description TEXT,
    search_vector TSVECTOR
);

-- 插入数据
INSERT INTO products (name, description) VALUES ('Laptop', 'A portable computer for work and entertainment.');
INSERT INTO products (name, description) VALUES ('Smartphone', 'A mobile phone with advanced features.');

-- 更新 search_vector 列
UPDATE products SET search_vector = to_tsvector(name || ' ' || description);

-- 执行全文搜索查询
SELECT * FROM products WHERE search_vector @@ to_tsquery('laptop & computer');

在这个示例中，我们创建了一个包含产品名称和描述的表，并使用 tsvector 来存储预处理的全文搜索文本。然后，我们执行了一个全文搜索查询，查找名称或描述中同时包含“laptop”和“computer”的产品。

相关搜索:当Postgres中有to_tsvector时，为什么要使用::tsvector呢？Postgres tsvector与关系表使用tsvector进行Postgres短语搜索对tsvector列进行Django过滤 to_tsvector()函数的Rails activeRecord版本 PostgreSQL:可以手动构建tsvector值吗？Postgres计数ILIKE vs Postgres计数to_tsvector 从标准Postgres批量复制中的To_tsvector()postgres:不能在名为“to_tsvector”的列上使用文本如何使用TSVECTOR和TSQUERY搜索单个或多个列将多行中的tsvector合并为一行如何使用Sequelize实现用于全文搜索的PostgresQL tsvector？如何在非字符型数据上创建tsvector_update_trigger Postgres - to_tsquery、to_tsvector和plainto_tsquery之间的差异 Postgres -使用3+列和to_tsvector为全文搜索创建索引在不带to_tsvector的ts_vector列上进行SQLAlchemy搜索 PostgreSQL:当在tsvector中首先匹配词位时，全文搜索会提高排名在一列中获取所有jsonb值，以便在to_tsvector中使用

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

PostgreSQL全文检索简介转

，对于text类型可以无需强类型转换(::tsvector或to_tsvector(config_name, text))，所以这个操作符实际支持的参数类型是这样的: tsvector @@ tsquery...INDEX pgweb_idx ON pgweb USING GIN(to_tsvector('english', title || ' ' || body)); 还可以单独创建一个tsvector列...使用了to_tsvector()函数的双参数版本指定了全文检索配置，因此必须使用to_tsvector()相同全文检索配置才能命中索引。...比即，WHERE to_tsvector('english', body) @@ 'a & b' 可以使用该索引，但WHERE to_tsvector(body) @@ 'a & b'不能。...在使用一个单独的列来存储tsvector表示时，有必要创建一个触发器在title或body改变时保证tsvector列为当前值。详见文档。

5.4K3 0

PostgreSQL-模糊查询

|\《|\》]' ,'','g'); $$ language sql strict immutable; 4.2 每两个字符做为一个词处理,将字符串转换为tsvector drop function...if exists str_to_tsvector(text); create or replace function str_to_tsvector(text) returns tsvector as...$$ declare v_count integer; v_txt text; v_txts text[]; v_result tsvector; begin v_txt.....v_count loop v_txts := array_append(v_txts, substring(v_txt,i,2)); end loop; --tsvector...from unnest(v_txts) as f group by f ),cte2 as( select f from cte1 order by f )select array_to_tsvector

2.5K2 0

Ubuntu 16.04如何使用PostgreSQL中的全文搜索

首先，我们需要使用PostgreSQL连接函数||和转换函数to_tsvector()将所有列放在一起。...这是因为函数to_tsvector()规范化每个单词以允许我们找到相同单词的变体形式，然后按字母顺序对结果进行排序。这个数字就是document中单词的位置。...函数to_tsquery()将参数（可以是直接或稍微调整的用户搜索）转换为文本搜索条件，该条件将以与to_tsvector()执行相同的方式减少输入。...该@@运营商标识，如果tsvector匹配的tsquery或其他tsvector。它返回true或false，这使其易于作为WHERE标准的一部分使用。...sammy=# ALTER TABLE news ADD "document" tsvector; 我们现在需要使用不同的查询将数据插入表中。

2.7K6 0

见招拆招-PostgreSQL中文全文索引效率优化

但填充数组字段需要调用 SELECT to_tsvector('parser', 'nane') 查询后使用脚本处理结果后再写入数组，比较麻烦。...修改 tsvector 分词向量字段，手动向此字段添加前缀词的分词向量。但分词向量不同于文本，不能直接拼接。...最好的方案当然是最后一种，改动最小，于是我就查询了一下 PostgreSQL 向量拼接，还是找到了向量拼接的方法，使用 ::tsvector 将字符串强转成向量，再使用 || 拼接到原来的分词向量上，SQL...语句类似 SELECT to_tsvector('parser', 'keyword') || 'prefix'::tsvector。

2.5K8 0

使用PostgreSQL进行中文全文检索

/ 设置分词规则（n 名词 v 动词等，详情阅读下面的文档）给某一列的分词结果添加 gin 索引 create index idx_name on table using gin(to_tsvector...重要单字复合: 4 zhparser.multi_zall = false #全部单字复合: 8 SQL 查询中我们可以使用最简单的 SELECT * FROM table WHERE to_tsvector...的返回结果为 '国家' & '大剧院' & '大剧' & '剧院' ，当然我们也可以使用 & | 符号拼接自己需要的向量；在查询长句时，可以使用 SELECT * FROM table WHERE to_tsvector...我们接着对分词效果和效率进行优化：存储分词结果我们可以使用一个字段来存储分词向量，并在此字段上创建索引来更优地使用分词索引： ALTER TABLE table ADD COLUMN tsv_column tsvector...; // 添加一个分词字段 UPDATE table SET tsv_column = to_tsvector('parser_name', coalesce(field,''));

2.7K12 0

使用PostgreSQL进行中文全文检索转

// 设置分词规则（n 名词 v 动词等，详情阅读下面的文档）给某一列的分词结果添加 gin 索引 create index idx_name on table using gin(to_tsvector...#重要单字复合: 4 zhparser.multi_zall = false #全部单字复合: 8 SQL 查询中我们可以使用最简单的 SELECT * FROM table WHERE to_tsvector...的返回结果为 '国家' & '大剧院' & '大剧' & '剧院' ，当然我们也可以使用 & | 符号拼接自己需要的向量；在查询长句时，可以使用 SELECT * FROM table WHERE to_tsvector...我们接着对分词效果和效率进行优化：存储分词结果我们可以使用一个字段来存储分词向量，并在此字段上创建索引来更优地使用分词索引： ALTER TABLE table ADD COLUMN tsv_column tsvector...; // 添加一个分词字段 UPDATE table SET tsv_column = to_tsvector('parser_name', coalesce(field,''));

2K2 0

Postgres 10 开发者新特性

在JSON列上的全文索引与其他列是类似的，因此我们的查询需要使用to_tsquery函数和to_tsvector函数的文本搜索的语法。

2K2 0

MOP 系列|MOP 三种主流数据库索引简介

PostgreSQL 全文检索的搜索过程实际上使用一个 tsvector 和 tsquery 进行匹配，tsvector 代表了文档，而 tsquery 代表了检索条件，匹配的运算符是“@@”。...postgres=# select 'We Love PostgreSQL Database'::tsvector; tsvector ----

1501 0

详解PostgreSQL数据类型

tsvector类型：表示一个为文本搜索优化的形式下的文档，去除重复分词后按分词顺序存储，可以存储位置信息和权重信息。 tsquery类型：表示一个文本查询，存储查询的分词，可存储权重信息。

1.6K5 0

【Postgresql】索引类型（btree、hash、GIST、GIN）

GIN索引的创建方式如下： CREATE INDEX GIN_idx1 ON student USING GIN (to_tsvector('english', stud_name)); GIN 索引显然是给搜索优化做准备的

4.5K4 0

纯分享：将MySql的建表DDL转为PostgreSql的DDL.md

VARCHAR(43) INET VARCHAR(43) MACADDR VARCHAR(17) UUID VARCHAR(36) XML LONGTEXT JSON LONGTEXT TSVECTOR

9933 0

【PostgreSQL】Introduction to PostgreSQL Index Types

Code:CREATE INDEX GIN_idx1 ON student USING GIN (to_tsvector('english', stud_name));\d+ student;Output

2002 0

SQLite vs MySQL vs PostgreSQL:关系型数据库比较

lseg、macaddr、money、numeric [(p,s)]、path、point、polygon、real、smallint、serial、text、time、timestamp、tsquery、tsvector

4.2K5 0

PG中的查询：2.统计--（2）

这些统计数据被采集，并用于估计阵列和tsvector数据的选择性。 2) elem_count_histogram数组是不同值的数量的直方图。

7411 0

进阶数据库系列（十二）：PostgreSQL 索引技术详解

----------+-----------+----------+--------- doc | text | | | doc_tsv | tsvector

2.8K4 0

PostgreSQL 13.0-13.15 功能更新和bug fixed列表

保留为索引设置的任何统计目标 PG13.3 修复将COLLATE表达式结果强制转换为不可排序类型时出现的错误 PG13.3 在使用扩展统计信息估计组数量时，不要忽略系统列 PG13.3 修复了当GIN tsvector...btree 索引条目去重 PG13.13 修复带有多个分区键的哈希分区表的分区步骤生成和运行时分区修剪问题，在某些情况下，针对其中一个分区键的 IS NULL 条件可能导致崩溃 PG13.13 避免对 to_tsvector

1401 0

POSTGRESQL PG VS SQL SERVER 到底哪家强？（译）应该是目前最全面的比较

预处理的文本文档以tsvector数据类型存储，而处理过的查询则以tsquery类型存储。预处理将文本文档解析为称为词元的语言单位，这使您可以查找单词的大小写无关变体。

3K2 0

SqlAlchemy 2.0 中文文档（五十八）

这包括对to_tsvector, to_tsquery, plainto_tsquery, phraseto_tsquery, websearch_to_tsquery, ts_headline 的支持

1671 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

CS.DEEP | 基于 openGauss 实现的计算机论坛项目

热门标签

活动推荐

运营活动

活动名称

广告关闭