资料
  • 资料
  • 专题
实战Flink+Doris实时数仓课程2023
推荐星级:
类别: 软件/EDA/IP
时间:2023-06-19
大小:3.14KB
阅读数:153
上传用户:开心就很好了
查看他发布的资源
下载次数
0
所需E币
0
ebi
新用户注册即送 300 E币
更多E币赚取方法,请查看
close
资料介绍
分享一样实时数仓的课程——《实战Flink+Doris实时数仓》,2023年6月完结新课,提供配套的源码+文档+虚拟机下载!!

《实战Flink+Doris实时数仓》-day01:

01.flink核心概念复习.
02.flink核心概念复习-事件时间语义与watermark.
03.实时数仓-架构理论及市场上各类架构调研.
04.实时数仓-基于我们公司的架构设计.
05.实时数仓-ods数据公共维度退维需求及设计.
06.实时数仓-用户属性退维的具体方案.
07.实时数仓-用户属性表同步到hbase代码开发.
08.实时数仓-用户属性维表同步运行测试.
09.实时数仓-地理位置维表加工并加载到hbase.
10.实时数仓-页面信息维表加工入库.
11.实时数仓-今日要点回顾总结.

《实战Flink+Doris实时数仓》-day02:

01.实时数仓-公共维度退维开发-数据准备.
02.实时数仓-公共维度退维-行为日志表创建映射.
03.实时数仓-公共维度退维-其他映射表创建.
04.实时数仓-公共维度退维-主代码开发.
05.实时数仓-流量主题看板-指标开发任务1.
06.实时数仓-流量主题看板-指标开发2.
07.实时数仓-流量主题看板-活动页流量统计‘.
08.号外-项目中依赖版本冲突的问题.
09.实时数仓-流量主题看板-topn页面.
10.实时数仓-流量主题olap轻度聚合etl开发.

《实战Flink+Doris实时数仓》-day03:

01.实时流量概况olap分析基础表etl任务-doris中物化视图的创建和使用.
02.访问时长olap-etl任务-需求分析和逻辑设计.
03访问时长olap-代码开发1(数据读取).
04.访问时长olap-代码开发2(虚拟差值实现).
05.访问时长分析-虚拟插值法乱序问题.
06.访问时长分析-插值数据如何聚合及如何在doris中合并.
07.访问时长分析-按时间窗口聚合计算后写入doris.
08.访问时长分析-状态清理问题.
09.视频播放分析主题-需求分析及模型设计及计算方案设计.
10.视频播放行为分析主题-主题维表同步任务开发.
11.视频播放行为分析主题-聚合统计逻辑开发.

《实战Flink+Doris实时数仓》-day04:

01.视频播放olap分析-实时报表查询演示.
02.视频播放olap聚合任务的技术要点-可以讲2个故事.
03.搜索行为olap主题-需求分析和概要设计.
04.搜索行为olap主题-近义词和分词维度信息的获取方案.
05.搜索行为olap主题-搜索数据聚合开发.
06.搜索行为olap主题-维度拓展代码开发1.
07.搜索行为olap主题-维度拓展代码开发2.
08.搜索行为olap主题-维度拓展-异步IO改造.
09.搜索行为olap主题-olap报表查询演示.
10.推荐栏位行为olap主题-需求背景及模型设计.
11.推荐栏位行为olap主题-聚合代码开发.

《实战Flink+Doris实时数仓》-day05:

01.广告事件olap分析主题-业务背景及开发方案及报表查询示例.
02.广告点击率预估-特征数据工程-需求-业务-数据-方案.
03.广告点击率预估-请求特征日志数据同步到hbase开发.
04.CEP快速上手.
05.广告点击率预估-曝光点击事件CEP匹配开发.
06.广告点击率预估-特征lookup及测试.
07.广告点击率预估-负例特征的计算方案分析.

《实战Flink+Doris实时数仓》-day06:

 01.业务域分析需求概述.
02.订单表同步doris任务开发(1)-连接器表创建.'
'03.订单表同步doris任务开发(2)-join及插入doris.'
 04.订单日清日结看板开发1-第1个坑.
 05.订单日清日结看板开发2-第2个坑及最终解决.
 06.订单日清日结看板开发3-结果写入mysql.
 07.订单日清日结api版-流式cdc-connector使用.
 08.订单日清日结api版-计算逻辑方案设计.
 09.订单日清日结api版-差值调整逻辑实现.
 10.订单日清日结api版-汇总计算逻辑实现.
 11.订单日清日结api版-结果输出到mysql.

《实战Flink+Doris实时数仓》-day07:

01.品牌topn支付额商品-sql开发-隐蔽的陷阱.
02.品牌topn支付额商品-changelog流的精细化控制操作.
03.品牌topn支付额商品-取分组topn的逻辑实现.
04.背压机制理解.
05.背压的查找和定位.
06.项目中的一些背压产生场景及解决手段.
07.checkpoint问题及项目中的调优场景经验.

实时数据仓库(Real-time Data Warehouse)是指能够实时地处理和分析数据,使得数据仓库中的数据是最新的、最准确的,并且可以实时响应用户的查询和分析需求的一种数据仓库系统。

与传统的数据仓库相比,实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载(ETL),更新的速度较慢,一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力,能够在数据发生变化时及时响应用户的查询和分析需求。

实时数仓建设目的
1. 解决传统数仓的问题
从目前数仓建设的现状来看,实时数仓是一个容易让人产生混淆的概念,根据传统经验分析,数仓有一个重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。但实时流处理技术,又是强调当前处理状态的一个技术,结合当前一线大厂的建设经验和滴滴在该领域的建设现状,我们尝试把公司内实时数仓建设的目的定位为,以数仓建设理论和实时技术,解决由于当前离线数仓数据时效性低解决不了的问题。

现阶段我们要建设实时数仓的主要原因是:
公司业务对于数据的实时性越来越迫切,需要有实时数据来辅助完成决策;
实时数据建设没有规范,数据可用性较差,无法形成数仓体系,资源大量浪费;
数据平台工具对整体实时开发的支持也日渐趋于成熟,开发成本降低。

2. 实时数仓的应用场景
实时 OLAP 分析;
实时数据看板;
实时业务监控;
实时数据接口服务。

Doris 采用了 Adaptive Query Execution 技术, 可以根据 Runtime Statistics 来动态调整执行计划,比如通过 Runtime Filter 技术能够在运行时生成生成 Filter 推到 Probe 侧,并且能够将 Filter 自动穿透到 Probe 侧最底层的 Scan 节点,从而大幅减少 Probe 的数据量,加速 Join 性能。Doris 的 Runtime Filter 支持 In/Min/Max/Bloom Filter。

在优化器方面 Doris 使用 CBO 和 RBO 结合的优化策略,RBO 支持常量折叠、子查询改写、谓词下推等,CBO 支持 Join Reorder。目前 CBO 还在持续优化中,主要集中在更加精准的统计信息收集和推导,更加精准的代价模型预估等方面。


版权说明:本资料由用户提供并上传,仅用于学习交流;若内容存在侵权,请进行举报,或 联系我们 删除。
PARTNER CONTENT
相关评论 (下载后评价送E币 我要评论)
没有更多评论了
  • 可能感兴趣
  • 关注本资料的网友还下载了
  • 技术白皮书