Skip to content

DataStream编程模型

1. 这是什么

DataStream 是 Flink 中处理流数据的核心 API 模型。
它强调从数据源到转换再到输出的连续处理链路。

2. 为什么重要

掌握 DataStream,才能真正理解 Flink 的编程方式和算子思维。
这也是从传统批处理思维切换到流处理思维的关键。

3. 核心内容

  • Source
  • Transformation
  • Sink
  • map、flatMap、filter
  • keyBy
  • process 基础认知

4. 学习重点

  • 理解流任务是持续运行的
  • 理解 keyBy 如何影响后续状态和聚合
  • 理解算子链是流处理逻辑的主干

5. 常见问题

  • 用批处理思维看待流作业
  • 忽视 keyBy 对数据分布的影响
  • 不清楚 Source 和 Sink 的语义边界

6. 练习建议

  • 写一个简单的实时统计 demo
  • 对比 map、flatMap、process 的使用场景
  • 总结常见流式算子职责

7. 自测问题

  • DataStream 模型的基本链路是什么
  • keyBy 为什么是很多状态算子的前提
  • Flink 的流式处理和传统批处理思维有什么差异