干货|8000字长文,深度介绍Flink在字节跳动数据流的实践!
DataLeap 字节跳动数据流的业务背景 数据流处理的主要是埋点日志。埋点,也叫Event Tracking,是数据和业务之间的桥梁,是数据分析、推荐、运营的基石. 用户在使用App、小程序、Web等各种线上应用时产生的行为,主要通过埋点的形式进行采集上报,按不同的来源分为客户端埋点、Web端埋点、服务端埋点。 不同来源的埋点都通过数据流的日志采集服务接收到MQ,然后经过一系列的Flink实时ETL对埋点进行数据标准化、数据清洗、实时风控反作弊等处理,最终分发到下游,主要的下游包括ABTest、推荐、行为分析系统、实时数仓、离线数仓。 所以,如果用一句话来概括数据流主要业务,其实就是埋点的收集、清洗、分发。 目前在字节跳动,清洗和分发环节是基于Flink搭建的。 01 - 数据流业务规模 ...阅读全文