PostgreSQL实战指南：多领域数据库应用与实践

第五部分：PostgreSQL与分布式数据库

虽然 PostgreSQL 是一个单机数据库的典范，但其强大的生态系统提供了多种构建分布式解决方案的途径。本部分将探讨如何通过逻辑复制、外部数据封装器（FDW）以及 CitusData、Greenplum 等专业扩展，将 PostgreSQL 从单机扩展到分布式集群，以应对海量数据和高并发的挑战。

第21章：外部数据封装器（FDW）与异构数据集成

外部数据封装器（Foreign Data Wrapper, FDW）是 PostgreSQL 中一项非常强大的功能，它允许你像访问本地表一样，直接在 PostgreSQL 内部对存储在外部系统中的数据进行查询，甚至写入。这些外部系统可以是另一个 PostgreSQL 数据库、MySQL、Oracle、MongoDB，甚至可以是 CSV 文件、Redis 或 Twitter API。FDW 是实现数据联邦（Data Federation）和异构数据集成（Heterogeneous Data Integration）的关键技术。

21.1 FDW 核心概念

FDW 的工作流程涉及以下几个核心对象：

扩展 (Extension): 首先，你需要为你想连接的数据源安装并创建一个 FDW 扩展。例如，连接到另一个 PostgreSQL 数据库使用 postgres_fdw，连接到 MySQL 使用 mysql_fdw。
外部服务器 (Foreign Server): 定义一个外部服务器对象，它包含了连接到外部数据源所需的信息，如主机地址、端口和数据库名。
用户映射 (User Mapping): 创建一个用户映射，它定义了本地数据库用户如何映射（认证）为远程数据源的用户。这通常包含远程用户的用户名和密码。
外部表 (Foreign Table): 在本地数据库中创建一个外部表。它的结构（列名和数据类型）必须与远程表的结构相匹配。当你查询这个外部表时，PostgreSQL 会通过 FDW 将查询转发到远程数据源去执行。

21.2 `postgres_fdw`：连接远程 PostgreSQL

postgres_fdw 是最常用也是功能最完善的 FDW，它被包含在 PostgreSQL 的标准贡献包中，用于连接到另一个 PostgreSQL 数据库。

使用步骤:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
-- 步骤 1: 在本地数据库创建扩展
CREATE EXTENSION postgres_fdw;

-- 步骤 2: 创建外部服务器
-- 'remote_db_host' 是远程 PostgreSQL 服务器的地址
CREATE SERVER remote_pg_server
    FOREIGN DATA WRAPPER postgres_fdw
    OPTIONS (host 'remote_db_host', port '5432', dbname 'remote_db');

-- 步骤 3: 为当前用户创建用户映射
-- 'remote_user' 和 'remote_password' 是登录远程数据库的凭据
CREATE USER MAPPING FOR CURRENT_USER
    SERVER remote_pg_server
    OPTIONS (user 'remote_user', password 'remote_password');

-- 步骤 4: 创建外部表
-- 'remote_schema.users' 是远程数据库中的原始表
CREATE FOREIGN TABLE local_users (
    id INTEGER,
    name TEXT,
    email TEXT
)
SERVER remote_pg_server
OPTIONS (schema_name 'remote_schema', table_name 'users');

-- 或者，更方便地导入整个 schema
-- IMPORT FOREIGN SCHEMA remote_schema
-- FROM SERVER remote_pg_server INTO public;

查询外部表:

现在，你可以像查询本地表一样查询 local_users。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
SELECT name, email FROM local_users WHERE id = 123;

-- 甚至可以与本地表进行 JOIN
CREATE TABLE local_profiles (
    user_id INTEGER PRIMARY KEY,
    bio TEXT
);

SELECT u.name, p.bio
FROM local_users u
JOIN local_profiles p ON u.id = p.user_id;

21.3 查询下推 (Pushdown)

FDW 的一个关键性能特性是“下推”。PostgreSQL 的查询优化器会尽可能地将 WHERE 子句、ORDER BY 子句甚至 JOIN 操作“下推”到远程服务器去执行。这样做可以极大地减少网络传输的数据量，从而显著提升性能。

例如，在上面的 JOIN 查询中，WHERE u.id = 123 这个条件会被发送到 remote_pg_server 上执行，远程服务器只会返回 id 为 123 的那一行数据，而不是返回整个 users 表让本地数据库来过滤。

21.4 场景实战：构建统一数据视图

业务场景描述:

一个公司有两个核心业务系统：一个新的用户中心（基于 PostgreSQL）和一个旧的订单系统（基于 MySQL）。分析师需要做一个报表，统计每个用户的总订单金额。我们不希望进行复杂的 ETL（提取、转换、加载）过程，而是希望能够直接进行实时联合查询。

数据集成方案:

我们将使用 PostgreSQL 作为查询入口，并利用 mysql_fdw 来连接到旧的订单系统。

实现步骤:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
-- 假设我们已经有一个本地的 users 表
-- CREATE TABLE users (...);

-- 1. 安装并创建 mysql_fdw 扩展
-- (需要先在操作系统层面安装 mysql_fdw 的二进制文件)
CREATE EXTENSION mysql_fdw;

-- 2. 创建连接到 MySQL 的外部服务器
CREATE SERVER mysql_order_server
    FOREIGN DATA WRAPPER mysql_fdw
    OPTIONS (host 'mysql_host', port '3306');

-- 3. 创建用户映射
CREATE USER MAPPING FOR CURRENT_USER
    SERVER mysql_order_server
    OPTIONS (username 'mysql_user', password 'mysql_password');

-- 4. 创建外部表，映射到 MySQL 中的 orders 表
-- 注意 MySQL 和 PostgreSQL 的数据类型差异
CREATE FOREIGN TABLE remote_orders (
    order_id INTEGER,
    user_id INTEGER,
    total_amount DECIMAL(10, 2),
    order_date DATETIME -- 假设 MySQL 中是 DATETIME 类型
)
SERVER mysql_order_server
OPTIONS (dbname 'order_db', table_name 'orders');

执行联合查询:

现在，分析师可以执行一个简单的 SQL 查询来完成报表任务。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
SELECT
    u.name,
    u.email,
    SUM(ro.total_amount) AS total_spent,
    COUNT(ro.order_id) AS total_orders
FROM
    users u
JOIN
    remote_orders ro ON u.id = ro.user_id
WHERE
    u.registration_date > '2024-01-01' -- 本地过滤
GROUP BY
    u.id, u.name, u.email
ORDER BY
    total_spent DESC;

代码解释与思考:

异构集成: FDW 的强大之处在于它屏蔽了底层数据源的差异。对于查询者来说，remote_orders 看起来就是一个普通的 PostgreSQL 表，他们无需学习 MySQL 的语法或连接方式。
实时查询: 与传统的 ETL 方案相比，FDW 提供的是实时或近实时的数据访问。查询执行时，数据直接从源系统拉取，避免了数据延迟。
性能考量: 虽然 FDW 很强大，但它也引入了网络延迟和远程系统负载。对于非常大的数据集和复杂的 JOIN，性能可能会成为瓶颈。在这种情况下，需要仔细评估查询计划（使用 EXPLAIN），并考虑是否所有过滤条件都被成功下推。如果性能不佳，定期的 ETL 作业可能仍然是更好的选择。

21.5 总结

本章我们深入探讨了外部数据封装器（FDW）这一强大的功能。我们学习了 FDW 的核心概念和工作流程，并实践了如何使用 postgres_fdw 和 mysql_fdw 连接到远程的同构和异构数据库。通过构建统一数据视图的案例，我们看到了 FDW 在简化数据集成、实现实时联合查询方面的巨大价值。

PostgreSQL实战指南：多领域数据库应用与实践 - 第21章：外部数据封装器（FDW）与异构数据集成

文章目录