分享一样实时数仓的课程——《实战Flink+Doris实时数仓》,2023年6月完结新课,提供配套的源码+文档+虚拟机下载!! 《实战Flink+Doris实时数仓》-day01: 01.flink核心概念复习. 02.flink核心概念复习-事件时间语义与watermark. 03.实时数仓-架构理论及市场上各类架构调研. 04.实时数仓-基于我们公司的架构设计. 05.实时数仓-ods数据公共维度退维需求及设计. 06.实时数仓-用户属性退维的具体方案. 07.实时数仓-用户属性表同步到hbase代码开发. 08.实时数仓-用户属性维表同步运行测试. 09.实时数仓-地理位置维表加工并加载到hbase. 10.实时数仓-页面信息维表加工入库. 11.实时数仓-今日要点回顾总结. 《实战Flink+Doris实时数仓》-day02: 01.实时数仓-公共维度退维开发-数据准备. 02.实时数仓-公共维度退维-行为日志表创建映射. 03.实时数仓-公共维度退维-其他映射表创建. 04.实时数仓-公共维度退维-主代码开发. 05.实时数仓-流量主题看板-指标开发任务1. 06.实时数仓-流量主题看板-指标开发2. 07.实时数仓-流量主题看板-活动页流量统计‘. 08.号外-项目中依赖版本冲突的问题. 09.实时数仓-流量主题看板-topn页面. 10.实时数仓-流量主题olap轻度聚合etl开发. 《实战Flink+Doris实时数仓》-day03: 01.实时流量概况olap分析基础表etl任务-doris中物化视图的创建和使用. 02.访问时长olap-etl任务-需求分析和逻辑设计. 03访问时长olap-代码开发1(数据读取). 04.访问时长olap-代码开发2(虚拟差值实现). 05.访问时长分析-虚拟插值法乱序问题. 06.访问时长分析-插值数据如何聚合及如何在doris中合并. 07.访问时长分析-按时间窗口聚合计算后写入doris. 08.访问时长分析-状态清理问题. 09.视频播放分析主题-需求分析及模型设计及计算方案设计. 10.视频播放行为分析主题-主题维表同步任务开发. 11.视频播放行为分析主题-聚合统计逻辑开发. 《实战Flink+Doris实时数仓》-day04: 01.视频播放olap分析-实时报表查询演示. 02.视频播放olap聚合任务的技术要点-可以讲2个故事. 03.搜索行为olap主题-需求分析和概要设计. 04.搜索行为olap主题-近义词和分词维度信息的获取方案. 05.搜索行为olap主题-搜索数据聚合开发. 06.搜索行为olap主题-维度拓展代码开发1. 07.搜索行为olap主题-维度拓展代码开发2. 08.搜索行为olap主题-维度拓展-异步IO改造. 09.搜索行为olap主题-olap报表查询演示. 10.推荐栏位行为olap主题-需求背景及模型设计. 11.推荐栏位行为olap主题-聚合代码开发. 《实战Flink+Doris实时数仓》-day05: 01.广告事件olap分析主题-业务背景及开发方案及报表查询示例. 02.广告点击率预估-特征数据工程-需求-业务-数据-方案. 03.广告点击率预估-请求特征日志数据同步到hbase开发. 04.CEP快速上手. 05.广告点击率预估-曝光点击事件CEP匹配开发. 06.广告点击率预估-特征lookup及测试. 07.广告点击率预估-负例特征的计算方案分析. 《实战Flink+Doris实时数仓》-day06: 01.业务域分析需求概述. 02.订单表同步doris任务开发(1)-连接器表创建.' '03.订单表同步doris任务开发(2)-join及插入doris.' 04.订单日清日结看板开发1-第1个坑. 05.订单日清日结看板开发2-第2个坑及最终解决. 06.订单日清日结看板开发3-结果写入mysql. 07.订单日清日结api版-流式cdc-connector使用. 08.订单日清日结api版-计算逻辑方案设计. 09.订单日清日结api版-差值调整逻辑实现. 10.订单日清日结api版-汇总计算逻辑实现. 11.订单日清日结api版-结果输出到mysql. 《实战Flink+Doris实时数仓》-day07: 01.品牌topn支付额商品-sql开发-隐蔽的陷阱. 02.品牌topn支付额商品-changelog流的精细化控制操作. 03.品牌topn支付额商品-取分组topn的逻辑实现. 04.背压机制理解. 05.背压的查找和定位. 06.项目中的一些背压产生场景及解决手段. 07.checkpoint问题及项目中的调优场景经验. 实时数据仓库(Real-time Data Warehouse)是指能够实时地处理和分析数据,使得数据仓库中的数据是最新的、最准确的,并且可以实时响应用户的查询和分析需求的一种数据仓库系统。 与传统的数据仓库相比,实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载(ETL),更新的速度较慢,一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力,能够在数据发生变化时及时响应用户的查询和分析需求。 实时数仓建设目的 1. 解决传统数仓的问题 从目前数仓建设的现状来看,实时数仓是一个容易让人产生混淆的概念,根据传统经验分析,数仓有一个重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。但实时流处理技术,又是强调当前处理状态的一个技术,结合当前一线大厂的建设经验和滴滴在该领域的建设现状,我们尝试把公司内实时数仓建设的目的定位为,以数仓建设理论和实时技术,解决由于当前离线数仓数据时效性低解决不了的问题。 现阶段我们要建设实时数仓的主要原因是: 公司业务对于数据的实时性越来越迫切,需要有实时数据来辅助完成决策; 实时数据建设没有规范,数据可用性较差,无法形成数仓体系,资源大量浪费; 数据平台工具对整体实时开发的支持也日渐趋于成熟,开发成本降低。 2. 实时数仓的应用场景 实时 OLAP 分析; 实时数据看板; 实时业务监控; 实时数据接口服务。 Doris 采用了 Adaptive Query Execution 技术, 可以根据 Runtime Statistics 来动态调整执行计划,比如通过 Runtime Filter 技术能够在运行时生成生成 Filter 推到 Probe 侧,并且能够将 Filter 自动穿透到 Probe 侧最底层的 Scan 节点,从而大幅减少 Probe 的数据量,加速 Join 性能。Doris 的 Runtime Filter 支持 In/Min/Max/Bloom Filter。 在优化器方面 Doris 使用 CBO 和 RBO 结合的优化策略,RBO 支持常量折叠、子查询改写、谓词下推等,CBO 支持 Join Reorder。目前 CBO 还在持续优化中,主要集中在更加精准的统计信息收集和推导,更加精准的代价模型预估等方面。