Skip to content

FlinkSQL与实时数仓

1. 这是什么

Flink SQL 是基于 SQL 方式操作流数据和表数据的能力。
它在实时数仓和数据开发场景中非常常见。

2. 为什么重要

很多实时计算需求并不适合全部通过 DataStream 手写。
Flink SQL 能显著降低开发门槛,也让数据处理逻辑更容易表达和维护。

3. 核心内容

  • 动态表
  • 流表关系认知
  • SQL 聚合与 Join
  • Catalog 与 Connector 基础认知
  • 实时数仓分层思路

4. 学习重点

  • 理解 Flink SQL 不是简单“把批处理 SQL 搬过来”
  • 理解动态表是流式 SQL 的核心抽象
  • 理解实时数仓更关注链路和语义而不是单条 SQL

5. 常见问题

  • 用离线数仓思维直接套实时场景
  • 忽视流式 Join 和迟到数据的复杂度
  • 只会写 SQL,不理解底层运行代价

6. 练习建议

  • 写一个简单的实时聚合 SQL
  • 总结动态表与普通关系表的差异
  • 画一张实时数仓基础分层示意图

7. 自测问题

  • Flink SQL 为什么适合实时数仓场景
  • 动态表是什么
  • 为什么流式 SQL 设计不能完全照搬离线思路