实时数仓建设第2问：怎样使用flink sql快速无脑统计当天下单各流程（已发货，确认收货等等）状态的订单数量

这篇具有很好参考价值的文章主要介绍了实时数仓建设第2问：怎样使用flink sql快速无脑统计当天下单各流程（已发货，确认收货等等）状态的订单数量。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

实时统计当天下单各流程状态(已支付待卖家发货，卖家通知物流揽收，待买家收货等等)中的订单数量。
订单表的binlog数据发送到kafka,flink从kafka接受消息进行指标统计。因为每笔订单的状态会发生变化，比如上午为【已支付待卖家发货】，这个时候【已支付待卖家发货】指标数要+1，下午订单的状态变更为【卖家通知物流揽收】，这个时候【卖家通知物流揽收】指标数要+1，而【已支付待卖家发货】指标数要-1。

如果采用Java代码编程，那么需要深入理解业务考虑每种状态变更，编写大量if逻辑稍有遗留就会统计错误结果。但是如果使用flink sql是不是就不需要考虑这些业务问题了？
要想使得

select order_status,count(order_no) from order group by order_status

能够得到我们期望的结果，必须使得进入该SQL的数据流由append流变成update/retract流。否则就要根据binlog消息的update /delete情况编写这个减去的逻辑。

解决思路

flink数据消费不走kafka，直接使用flink cdc去消费数据库的binlog日志。
flink数据消费走kafka,那么kafka ddl使用canla-json format。
如果当前flink版本不支持canla-json format，那么就需要将soucre出来的append流转换为update/retract流后进入我们的聚合SQL算子中。

只要source端产生了changelog数据，后面的算子是可以自动处理update消息的，你可以认为: