IT小白向大數據領域邁進
掌握實用技能
增長經驗
搭建完善的項目
接觸廣泛技術面
學習前沿技術
突破職業瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎框架
熟練使用Hudi
充分掌握數據湖概念與構建流程
熟練應用數倉建模理論
熟練掌握Hudi與其他大數據框架的集成
采用當前大廠非常流行的Hudi和Flink框架,實現湖倉一體架構;
多方參考大廠數倉分層體系,合理數據分層,降低數據耦合度,提高數據分析效率,降低數據計算成本。
采用Flink CDC監控業務數據變動情況,做到更實時更準確的變動數據采集。
采用Flume采集用戶行為日志數據,適配組件全面調研,給出詳細貼近實戰的配置文件,自定義采集組件,解決時間戳零點漂移,優化小文件存儲帶來問題,提供更多實戰經驗;
真實數據ETL實操,掌握如何對原始數據進行清洗、脫敏、數據分類、整合;
使用Hudi集成Hive、Flink,FlinkSQL完成分層計算,HiveCatalog管理元數據;
ODS層、DWD層、DIM層、DWS層和ADS層之間采用Flink流式處理,省去了離線數倉中的調度環節,真正做到湖倉一體。
采用SuperSet對調度采集至RDBMS數據庫中的結果數據進行多圖表、儀表盤可視化展示;
分析總結項目搭建過程中遇到的問題,增加開發經驗,提升實戰問題解決能力。