PostgreSQL实战指南：多领域数据库应用与实践

第三部分：PostgreSQL与NoSQL特性

PostgreSQL 凭借其对 JSON/JSONB、XML、Hstore 等数据类型的原生支持以及强大的全文搜索能力，完美融合了关系型数据库的严谨性与 NoSQL 的灵活性。本部分将详细介绍如何利用这些特性来高效处理半结构化和非结构化数据，满足现代应用的多样化需求。

第15章：全文搜索与文本分析

在许多应用中，如博客、电子商务网站或文档管理系统，都需要提供强大的文本搜索功能。简单的 LIKE 或 ILIKE 查询在处理词形变化、相关性排序和大规模数据时，性能和功能都捉襟见肘。PostgreSQL 内置了先进的全文搜索（Full-Text Search, FTS）功能，可以将数据库转变为一个强大的搜索引擎。

15.1 全文搜索核心概念

PostgreSQL 的全文搜索基于两个核心数据类型：tsvector 和 tsquery。

tsvector (Text Search Vector): 这是文档的一种优化表示。它将文本分解为词素（lexemes），即词语的规范化形式（例如，“running”, “ran”, “runs” 都会被规范化为 “run”），并存储它们在文档中的位置。这个过程包括去除停用词（stop words，如 “a”, “the”, “is”）。
tsquery (Text Search Query): 这是搜索查询的一种表示。它同样将用户的输入文本转换为词素，并可以包含逻辑操作符（& AND, | OR, ! NOT）和前缀匹配（:*）。

工作流程:

将文档文本（text）转换为 tsvector。
将用户搜索词（text）转换为 tsquery。
使用 @@ 匹配操作符来判断 tsvector 是否匹配 tsquery。

15.2 文本处理与多语言支持

转换函数:

to_tsvector(config, document): 将文本文档转换为 tsvector。config 参数指定了要使用的文本搜索配置（如语言）。
to_tsquery(config, querytext): 将查询文本转换为 tsquery。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
-- 英文示例
SELECT to_tsvector('english', 'A fat cat sat on a mat and ate a fat rat.');
-- 结果: 'ate':9 'cat':3 'fat':2,11 'mat':7 'rat':12 'sat':4

SELECT to_tsquery('english', 'cats & rats');
-- 结果: 'cat' & 'rat'

-- 匹配查询
SELECT to_tsvector('english', 'A fat cat sat on a mat and ate a fat rat.') @@ to_tsquery('english', 'cats & rats');
-- 结果: true

多语言支持:

PostgreSQL 支持多种语言的全文搜索配置。选择正确的语言配置对于词干提取（stemming）和停用词处理至关重要。

1
2
3
4
5
-- 中文示例 (需要中文分词插件，如 zhparser)
-- SELECT to_tsvector('zhparsercfg', 'PostgreSQL 是一个功能强大的数据库');

-- 查看所有可用的配置
SELECT cfgname FROM pg_ts_config;

15.3 排名与高亮

仅仅找到匹配的文档是不够的，通常还需要根据相关性对结果进行排序。

ts_rank(vector, query): 根据词频和接近度计算相关性得分。
ts_headline(document, query): 在原始文档中高亮显示匹配的关键词，生成摘要。

排名与高亮示例:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
-- 准备数据
CREATE TABLE articles (
    id SERIAL PRIMARY KEY,
    title TEXT,
    body TEXT,
    tsv tsvector -- 用于存储 tsvector 的列
);

INSERT INTO articles (title, body) VALUES
('PostgreSQL FTS', 'This is a tutorial about Full-Text Search in PostgreSQL. PostgreSQL provides powerful search capabilities.'),
('Learning SQL', 'SQL is a standard language for database management. Learning SQL is essential.');

-- 使用触发器自动更新 tsv 列
CREATE TRIGGER tsvector_update BEFORE INSERT OR UPDATE
ON articles FOR EACH ROW EXECUTE PROCEDURE
tsvector_update_trigger(tsv, 'pg_catalog.english', title, body);

-- 再次插入数据以触发更新
UPDATE articles SET title = title;

-- 执行带排名的搜索
SELECT id, title, ts_rank(tsv, to_tsquery('english', 'postgresql & search')) AS rank
FROM articles
WHERE tsv @@ to_tsquery('english', 'postgresql & search')
ORDER BY rank DESC;

-- 执行带高亮摘要的搜索
SELECT
    title,
    ts_headline('english', body, to_tsquery('english', 'postgresql & search')) AS headline
FROM articles
WHERE tsv @@ to_tsquery('english', 'postgresql & search');

15.4 场景实战：构建博客文章搜索引擎

业务场景描述:

我们需要为一个博客平台实现一个高效的文章搜索引擎。用户可以输入关键词，系统需要快速返回相关的文章，并按相关性排序，同时显示包含关键词的摘要。

数据建模与实现:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
-- 1. 创建表 (已在上面创建)
-- 2. 创建 GIN 索引以加速全文搜索
-- GIN 索引是全文搜索的首选索引类型
CREATE INDEX idx_gin_articles_tsv ON articles USING GIN (tsv);

-- 3. 实现搜索功能 (封装在一个函数中)
CREATE OR REPLACE FUNCTION search_articles(query TEXT, lang TEXT DEFAULT 'english')
RETURNS TABLE (id INT, title TEXT, rank REAL, headline TEXT)
AS $$
BEGIN
    RETURN QUERY
    SELECT
        a.id,
        a.title,
        ts_rank(a.tsv, websearch_to_tsquery(lang, query)) AS rank,
        ts_headline(lang, a.body, websearch_to_tsquery(lang, query)) AS headline
    FROM
        articles AS a
    WHERE
        a.tsv @@ websearch_to_tsquery(lang, query)
    ORDER BY
        rank DESC;
END;
$$ LANGUAGE plpgsql;

执行搜索:

1
2
3
4
5
-- 搜索关于 "powerful postgresql" 的文章
SELECT * FROM search_articles('powerful postgresql');

-- 搜索关于 "learning databases" 的文章
SELECT * FROM search_articles('learning databases');

代码解释与思考:

tsvector_update_trigger: 这是一个非常有用的内置触发器函数。它可以自动地将一个或多个文本列的内容合并、转换为 tsvector，并更新到指定的 tsvector 列。这极大地简化了 tsvector 列的维护工作。
GIN 索引: 如果没有 GIN 索引，全文搜索查询将执行全表扫描，在数据量较大时性能会非常低下。创建了 GIN 索引后，@@ 操作符的查询速度会得到数量级的提升。
websearch_to_tsquery(): 这个函数相比 to_tsquery() 更适合处理来自 Web 搜索框的原始用户输入。它能更好地处理不带引号的短语，并自动在词之间添加 & (AND) 操作符。
封装为函数: 将复杂的搜索逻辑封装在一个数据库函数中是一个很好的实践。它简化了应用层的调用，使得搜索逻辑的维护和更新更加集中和方便。

15.5 总结

本章我们深入探索了 PostgreSQL 强大的全文搜索功能。我们学习了 tsvector 和 tsquery 的核心概念，了解了如何处理多语言文本、如何对结果进行排序和高亮，并通过一个博客搜索引擎的实例，掌握了从数据准备、索引创建到功能实现的全过程。

PostgreSQL实战指南：多领域数据库应用与实践 - 第15章：全文搜索与文本分析

文章目录