渴望技術(shù)轉(zhuǎn)型
轉(zhuǎn)換行業(yè)的IT小白
有一定技術(shù)基礎(chǔ)
希望增長經(jīng)驗
接觸更廣技術(shù)面
從事一定年限技術(shù)開發(fā)
目標突破自我
學習大數(shù)據(jù)技術(shù)
突破職業(yè)瓶頸
Linux、Hadoop
Java、Hive、Flume
Kafka等基礎(chǔ)框架
充分了解在線教育行業(yè)的業(yè)務數(shù)據(jù)體系熟悉在線教育行業(yè)的離線指標體系熟悉在線教育行業(yè)的實時指標體系
數(shù)據(jù)采集策略數(shù)據(jù)建模理論了解認識多種數(shù)據(jù)倉庫技術(shù)模塊充分掌握多種大數(shù)據(jù)技術(shù)框架的協(xié)調(diào)應用
數(shù)據(jù)清洗思路離線數(shù)據(jù)分析經(jīng)驗實時數(shù)據(jù)分析經(jīng)驗定時調(diào)度
數(shù)據(jù)可視化接口編寫性能優(yōu)化集群運維任務部署
項目涵蓋40多個Shell腳本,6大類用戶行為日志數(shù)據(jù),25張業(yè)務數(shù)據(jù)原始表格,100多張在線教育大數(shù)據(jù)表格,100多個在線教育統(tǒng)計指標;
充分調(diào)研各大廠數(shù)倉建模體系,以阿里巴巴的數(shù)據(jù)倉庫建模理論為最終藍本,搭建實用且貼近生產(chǎn)實際的數(shù)倉建模體系;
應用建模理論,提出可實踐性強的數(shù)倉搭建理論過程,數(shù)據(jù)調(diào)研→明確數(shù)據(jù)域→構(gòu)建業(yè)務總線矩陣→維度模型設計→明確統(tǒng)計指標→匯總模型設計→分層構(gòu)建數(shù)倉;
多方參考大廠數(shù)倉分層體系,合理數(shù)據(jù)分層,降低數(shù)據(jù)耦合度,提高數(shù)據(jù)分析效率,降低數(shù)據(jù)計算成本。
實戰(zhàn)式數(shù)據(jù)模擬策略,模擬生成全面的原始數(shù)據(jù),針對真實數(shù)據(jù)執(zhí)行數(shù)據(jù)采集工作;
采用Flume采集用戶行為日志數(shù)據(jù),適配組件全面調(diào)研,給出詳細貼近實戰(zhàn)的配置文件,自定義采集組件,解決時間戳零點漂移,優(yōu)化小文件存儲帶來問題,提供更多實戰(zhàn)經(jīng)驗;
采用流行數(shù)據(jù)采集框架DataX采集業(yè)務數(shù)據(jù),提供詳細配置文件及腳本解讀,掌握更多腳本編寫技巧;
采用Maxwell監(jiān)控業(yè)務數(shù)據(jù)變動情況,做到更實時更準確的變動數(shù)據(jù)采集,靈活使用Maxwell框架,全面掌握使用技巧;
真實數(shù)據(jù)ETL實操,掌握如何對原始數(shù)據(jù)進行清洗、脫敏、數(shù)據(jù)分類、整合;
基于業(yè)務總線矩陣構(gòu)建數(shù)據(jù)倉庫DWD層,完成事務型事實表、周期型事實表、累積快照事實表搭建和數(shù)據(jù)裝載;
基于業(yè)務總線矩陣構(gòu)建數(shù)據(jù)倉庫DIM層,針對緩慢變化維度,構(gòu)建拉鏈表;
基于指標體系分析構(gòu)建DWS層,將相同粒度、統(tǒng)計周期的派生指標整合統(tǒng)計為寬表,提高計算結(jié)果復用性;
安裝部署受各大廠歡迎的DolphinScheduler工作流調(diào)度系統(tǒng),實現(xiàn)數(shù)據(jù)倉庫搭建全流程定時自動化調(diào)度以及故障自動郵件告警;
采用SuperSet對調(diào)度采集至RDBMS數(shù)據(jù)庫中的結(jié)果數(shù)據(jù)進行多圖表、儀表盤可視化展示;
采用Echarts,結(jié)合SpringBoot對結(jié)果數(shù)據(jù)進行可視化展示,充分掌握數(shù)據(jù)展示接口編寫流程;
基于企業(yè)級數(shù)據(jù)倉庫的海量數(shù)據(jù)計算業(yè)務,對CPU配置、內(nèi)存分配、任務提交、任務執(zhí)行計劃等方面進行全面的性能調(diào)優(yōu);
項目涵蓋幾十個Flink實時計算任務、幾十個實時計算指標、上萬行實時開發(fā)代碼。
參照大廠實際數(shù)倉建模理論,分層構(gòu)建實時數(shù)據(jù)倉庫,ODS層、DIM層、DWD層、DWS層、ADS層,分層計算,數(shù)據(jù)分流,提高效率,降低耦合度;
使用HBase+Phoenix的組合存儲DIM層維度數(shù)據(jù),大大提高響應速度;
使用Flink CDC結(jié)合MySQL動態(tài)配置表,動態(tài)獲取維度表配置,實現(xiàn)數(shù)據(jù)動態(tài)自動分流;
采用Redis進行旁路緩存,提高響應速度,并使用Flink提供的異步IO進行優(yōu)化;
提供針對多種場景的雙流Join解決方案,深入分析各種解決方案的優(yōu)劣,培養(yǎng)問題解決能力;
靈活運用Flink的狀態(tài)編程實現(xiàn)數(shù)據(jù)去重,計算去重類指標;
對所有指標計算需求提供基于Table API和Flink SQL的兩種解決方案,滿足不同企業(yè)開發(fā)需求,培養(yǎng)多角度開發(fā)能力;
使用FlinkCEP技術(shù)實現(xiàn)不同用戶行為模式的識別,完成用戶跳出行為的篩選;
采用Doris存儲最終寬表數(shù)據(jù),大大提高數(shù)據(jù)查詢效率,并為用戶提供即席查詢、可視化報表展示的多樣可能性;
采用SpringBoot編寫數(shù)據(jù)展示接口對接SugarBI實現(xiàn)數(shù)據(jù)可視化大屏展示,熟練掌握數(shù)據(jù)展示接口的編寫流程
詳細講解生產(chǎn)環(huán)境中會產(chǎn)生的反壓問題,對反壓原因、反壓定位、反壓處理進行詳細分解;
多角度分析大數(shù)據(jù)分析中常見的數(shù)據(jù)傾斜問題,提供詳盡的問題定位策略和多種解決方案;
? 詳細講解生產(chǎn)環(huán)境中常見的故障:非法配置異常、Java 堆空間異常、直接緩沖存儲器異常、元空間異常、網(wǎng)絡緩沖區(qū)數(shù)量不足、超出容器內(nèi)存異常、Checkpoint 失敗、Checkpoint 慢、Kafka動態(tài)發(fā)現(xiàn)分區(qū)、Watermark不更新、依賴沖突、超出文件描述符限制、臟數(shù)據(jù)導致數(shù)據(jù)轉(zhuǎn)發(fā)失敗等,令學員在短時間內(nèi)掌握生產(chǎn)環(huán)境中常見到、難解決的開發(fā)難題,迅速增長經(jīng)驗,提升能力。