FlinkSQL与实时数仓
1. 这是什么
Flink SQL 是基于 SQL 方式操作流数据和表数据的能力。
它在实时数仓和数据开发场景中非常常见。
2. 为什么重要
很多实时计算需求并不适合全部通过 DataStream 手写。
Flink SQL 能显著降低开发门槛,也让数据处理逻辑更容易表达和维护。
3. 核心内容
- 动态表
- 流表关系认知
- SQL 聚合与 Join
- Catalog 与 Connector 基础认知
- 实时数仓分层思路
4. 学习重点
- 理解 Flink SQL 不是简单“把批处理 SQL 搬过来”
- 理解动态表是流式 SQL 的核心抽象
- 理解实时数仓更关注链路和语义而不是单条 SQL
5. 常见问题
- 用离线数仓思维直接套实时场景
- 忽视流式 Join 和迟到数据的复杂度
- 只会写 SQL,不理解底层运行代价
6. 练习建议
- 写一个简单的实时聚合 SQL
- 总结动态表与普通关系表的差异
- 画一张实时数仓基础分层示意图
7. 自测问题
- Flink SQL 为什么适合实时数仓场景
- 动态表是什么
- 为什么流式 SQL 设计不能完全照搬离线思路