tag 标签: 数仓课

相关资源
  • 所需E币: 0
    时间: 2023-6-19 17:50
    大小: 3.14KB
    上传者: 开心就很好了
    分享一样实时数仓的课程——《实战Flink+Doris实时数仓》,2023年6月完结新课,提供配套的源码+文档+虚拟机下载!!《实战Flink+Doris实时数仓》-day01:01.flink核心概念复习.02.flink核心概念复习-事件时间语义与watermark.03.实时数仓-架构理论及市场上各类架构调研.04.实时数仓-基于我们公司的架构设计.05.实时数仓-ods数据公共维度退维需求及设计.06.实时数仓-用户属性退维的具体方案.07.实时数仓-用户属性表同步到hbase代码开发.08.实时数仓-用户属性维表同步运行测试.09.实时数仓-地理位置维表加工并加载到hbase.10.实时数仓-页面信息维表加工入库.11.实时数仓-今日要点回顾总结.《实战Flink+Doris实时数仓》-day02:01.实时数仓-公共维度退维开发-数据准备.02.实时数仓-公共维度退维-行为日志表创建映射.03.实时数仓-公共维度退维-其他映射表创建.04.实时数仓-公共维度退维-主代码开发.05.实时数仓-流量主题看板-指标开发任务1.06.实时数仓-流量主题看板-指标开发2.07.实时数仓-流量主题看板-活动页流量统计‘.08.号外-项目中依赖版本冲突的问题.09.实时数仓-流量主题看板-topn页面.10.实时数仓-流量主题olap轻度聚合etl开发.《实战Flink+Doris实时数仓》-day03:01.实时流量概况olap分析基础表etl任务-doris中物化视图的创建和使用.02.访问时长olap-etl任务-需求分析和逻辑设计.03访问时长olap-代码开发1(数据读取).04.访问时长olap-代码开发2(虚拟差值实现).05.访问时长分析-虚拟插值法乱序问题.06.访问时长分析-插值数据如何聚合及如何在doris中合并.07.访问时长分析-按时间窗口聚合计算后写入doris.08.访问时长分析-状态清理问题.09.视频播放分析主题-需求分析及模型设计及计算方案设计.10.视频播放行为分析主题-主题维表同步任务开发.11.视频播放行为分析主题-聚合统计逻辑开发.《实战Flink+Doris实时数仓》-day04:01.视频播放olap分析-实时报表查询演示.02.视频播放olap聚合任务的技术要点-可以讲2个故事.03.搜索行为olap主题-需求分析和概要设计.04.搜索行为olap主题-近义词和分词维度信息的获取方案.05.搜索行为olap主题-搜索数据聚合开发.06.搜索行为olap主题-维度拓展代码开发1.07.搜索行为olap主题-维度拓展代码开发2.08.搜索行为olap主题-维度拓展-异步IO改造.09.搜索行为olap主题-olap报表查询演示.10.推荐栏位行为olap主题-需求背景及模型设计.11.推荐栏位行为olap主题-聚合代码开发.《实战Flink+Doris实时数仓》-day05:01.广告事件olap分析主题-业务背景及开发方案及报表查询示例.02.广告点击率预估-特征数据工程-需求-业务-数据-方案.03.广告点击率预估-请求特征日志数据同步到hbase开发.04.CEP快速上手.05.广告点击率预估-曝光点击事件CEP匹配开发.06.广告点击率预估-特征lookup及测试.07.广告点击率预估-负例特征的计算方案分析.《实战Flink+Doris实时数仓》-day06: 01.业务域分析需求概述.02.订单表同步doris任务开发(1)-连接器表创建.''03.订单表同步doris任务开发(2)-join及插入doris.' 04.订单日清日结看板开发1-第1个坑. 05.订单日清日结看板开发2-第2个坑及最终解决. 06.订单日清日结看板开发3-结果写入mysql. 07.订单日清日结api版-流式cdc-connector使用. 08.订单日清日结api版-计算逻辑方案设计. 09.订单日清日结api版-差值调整逻辑实现. 10.订单日清日结api版-汇总计算逻辑实现. 11.订单日清日结api版-结果输出到mysql.《实战Flink+Doris实时数仓》-day07:01.品牌topn支付额商品-sql开发-隐蔽的陷阱.02.品牌topn支付额商品-changelog流的精细化控制操作.03.品牌topn支付额商品-取分组topn的逻辑实现.04.背压机制理解.05.背压的查找和定位.06.项目中的一些背压产生场景及解决手段.07.checkpoint问题及项目中的调优场景经验.实时数据仓库(Real-timeDataWarehouse)是指能够实时地处理和分析数据,使得数据仓库中的数据是最新的、最准确的,并且可以实时响应用户的查询和分析需求的一种数据仓库系统。与传统的数据仓库相比,实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载(ETL),更新的速度较慢,一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力,能够在数据发生变化时及时响应用户的查询和分析需求。实时数仓建设目的1.解决传统数仓的问题从目前数仓建设的现状来看,实时数仓是一个容易让人产生混淆的概念,根据传统经验分析,数仓有一个重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。但实时流处理技术,又是强调当前处理状态的一个技术,结合当前一线大厂的建设经验和滴滴在该领域的建设现状,我们尝试把公司内实时数仓建设的目的定位为,以数仓建设理论和实时技术,解决由于当前离线数仓数据时效性低解决不了的问题。现阶段我们要建设实时数仓的主要原因是:公司业务对于数据的实时性越来越迫切,需要有实时数据来辅助完成决策;实时数据建设没有规范,数据可用性较差,无法形成数仓体系,资源大量浪费;数据平台工具对整体实时开发的支持也日渐趋于成熟,开发成本降低。2.实时数仓的应用场景实时OLAP分析;实时数据看板;实时业务监控;实时数据接口服务。Doris采用了AdaptiveQueryExecution技术,可以根据RuntimeStatistics来动态调整执行计划,比如通过RuntimeFilter技术能够在运行时生成生成Filter推到Probe侧,并且能够将Filter自动穿透到Probe侧最底层的Scan节点,从而大幅减少Probe的数据量,加速Join性能。Doris的RuntimeFilter支持In/Min/Max/BloomFilter。在优化器方面Doris使用CBO和RBO结合的优化策略,RBO支持常量折叠、子查询改写、谓词下推等,CBO支持JoinReorder。目前CBO还在持续优化中,主要集中在更加精准的统计信息收集和推导,更加精准的代价模型预估等方面。