PostgreSQL change data capture governed Apache Iceberg / Parquet on AWS S3 — built for AI agents.
PostgreSQL change data capture governed Apache Iceberg / Parquet on AWS S3 — built for AI agents.
基于 AWS S3 的 PostgreSQL 变更数据捕获(CDC)治理方案:专为 AI Agent 构建的 Apache Iceberg / Parquet 架构
Core Features 核心功能
pg-cdc is not just replication. pg-cdc streams Postgres Write Ahead Logs(WAL) out of production Postgres into typed, immutable, time-travelable Iceberg tables on S3. pg-cdc 不仅仅是简单的复制。它将 PostgreSQL 的预写日志(WAL)从生产数据库中流式传输出来,并转换为存储在 AWS S3 上具有类型化、不可变且支持时间旅行(Time-travel)特性的 Iceberg 表。
Registers each entities in the AWS Glue Catalog. Gates every read with AWS Lake Formation tags — so AI agents, analysts, and query engines consume governed data without ever touching the source database, and without database credentials. 它在 AWS Glue Catalog 中注册每个实体,并使用 AWS Lake Formation 标签对每次读取进行管控。这样,AI Agent、数据分析师和查询引擎在消费受治理数据时,无需直接访问源数据库,也无需任何数据库凭据。
No JVM. One binary. No return path — the WAL is one-way; Parquet is immutable. Agents physically cannot write to production. 无需 JVM,仅需一个二进制文件。无回传路径——WAL 是单向的,且 Parquet 文件是不可变的。AI Agent 在物理层面无法对生产环境进行写入。
No database credentials — consumers authenticate via AWS IAM + Lake Formation, never a connection string. 无需数据库凭据——消费者通过 AWS IAM 和 Lake Formation 进行身份验证,绝不使用连接字符串。
Governed by default — untagged data is invisible; Lake Formation tags gate every read, down to the column. 默认受治理——未标记的数据不可见;Lake Formation 标签管控每一次读取,细化至列级别。
Time travel built in — every flush is an Iceberg snapshot; CDC epochs + immutable raw@ tags give historical queries with no database branching. 内置时间旅行功能——每一次刷新都是一个 Iceberg 快照;通过 CDC 纪元(Epochs)和不可变的 raw@ 标签,无需进行数据库分支即可实现历史数据查询。