在線教育

本在線教育項(xiàng)目是基于知名在線教育互聯(lián)網(wǎng)企業(yè)的實(shí)際業(yè)務(wù)場(chǎng)景，引入海量的真實(shí)點(diǎn)擊數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)，緊跟大數(shù)據(jù)的主流技術(shù)需求，搭建了一整套完整的離線數(shù)據(jù)倉庫和實(shí)時(shí)數(shù)據(jù)倉庫。通過本項(xiàng)目的學(xué)習(xí)，帶你從0到1開始學(xué)習(xí)在線教育領(lǐng)域如何搭建全面完整的大數(shù)據(jù)分析體系。
項(xiàng)目覆蓋廣泛的大數(shù)據(jù)技術(shù)體系，Hadoop、Spark、DataX、Maxwell、Flume、Kafka、Flink等，通過本項(xiàng)目的學(xué)習(xí)，學(xué)員可以充分了解眾多的大數(shù)據(jù)技術(shù)框架是如何協(xié)調(diào)工作的。本項(xiàng)目具有豐富多樣的大數(shù)據(jù)功能模塊，可供離線數(shù)據(jù)倉庫和實(shí)時(shí)數(shù)據(jù)倉庫共同使用的數(shù)據(jù)采集系統(tǒng)、完整的真實(shí)企業(yè)級(jí)數(shù)據(jù)模擬體系、離線指標(biāo)分析體系和實(shí)時(shí)指標(biāo)分析體系，全程融入AI輔助功能開發(fā)，掌握AI使用技巧，提升學(xué)員開發(fā)效率。項(xiàng)目功能設(shè)置完善，還原真實(shí)企業(yè)開發(fā)場(chǎng)景，緊跟企業(yè)前沿新技術(shù)，AI課程內(nèi)容的加入提升學(xué)員技術(shù)感知力。

技術(shù)點(diǎn)

一、離線數(shù)倉

項(xiàng)目涵蓋40多個(gè)Shell腳本，6大類用戶行為日志數(shù)據(jù)，25張業(yè)務(wù)數(shù)據(jù)原始表格，100多張?jiān)诰€教育大數(shù)據(jù)表格，100多個(gè)在線教育統(tǒng)計(jì)指標(biāo)；
充分調(diào)研各大廠數(shù)倉建模體系，以阿里巴巴的數(shù)據(jù)倉庫建模理論為最終藍(lán)本，搭建實(shí)用且貼近生產(chǎn)實(shí)際的數(shù)倉建模體系；
應(yīng)用建模理論，提出可實(shí)踐性強(qiáng)的數(shù)倉搭建理論過程，數(shù)據(jù)調(diào)研→明確數(shù)據(jù)域→構(gòu)建業(yè)務(wù)總線矩陣→維度模型設(shè)計(jì)→明確統(tǒng)計(jì)指標(biāo)→匯總模型設(shè)計(jì)→分層構(gòu)建數(shù)倉；
多方參考大廠數(shù)倉分層體系，合理數(shù)據(jù)分層，降低數(shù)據(jù)耦合度，提高數(shù)據(jù)分析效率，降低數(shù)據(jù)計(jì)算成本。
實(shí)戰(zhàn)式數(shù)據(jù)模擬策略，模擬生成全面的原始數(shù)據(jù)，針對(duì)真實(shí)數(shù)據(jù)執(zhí)行數(shù)據(jù)采集工作；
采用Flume采集用戶行為日志數(shù)據(jù)，適配組件全面調(diào)研，給出詳細(xì)貼近實(shí)戰(zhàn)的配置文件，自定義采集組件，解決時(shí)間戳零點(diǎn)漂移，優(yōu)化小文件存儲(chǔ)帶來問題，提供更多實(shí)戰(zhàn)經(jīng)驗(yàn)；
采用流行數(shù)據(jù)采集框架DataX采集業(yè)務(wù)數(shù)據(jù)，提供詳細(xì)配置文件及腳本解讀，掌握更多腳本編寫技巧；
采用Maxwell監(jiān)控業(yè)務(wù)數(shù)據(jù)變動(dòng)情況，做到更實(shí)時(shí)更準(zhǔn)確的變動(dòng)數(shù)據(jù)采集，靈活使用Maxwell框架，全面掌握使用技巧；

真實(shí)數(shù)據(jù)ETL實(shí)操，掌握如何對(duì)原始數(shù)據(jù)進(jìn)行清洗、脫敏、數(shù)據(jù)分類、整合；
基于業(yè)務(wù)總線矩陣構(gòu)建數(shù)據(jù)倉庫DWD層，完成事務(wù)型事實(shí)表、周期型事實(shí)表、累積快照事實(shí)表搭建和數(shù)據(jù)裝載；
基于業(yè)務(wù)總線矩陣構(gòu)建數(shù)據(jù)倉庫DIM層，針對(duì)緩慢變化維度，構(gòu)建拉鏈表；
基于指標(biāo)體系分析構(gòu)建DWS層，將相同粒度、統(tǒng)計(jì)周期的派生指標(biāo)整合統(tǒng)計(jì)為寬表，提高計(jì)算結(jié)果復(fù)用性；
安裝部署受各大廠歡迎的DolphinScheduler工作流調(diào)度系統(tǒng)，實(shí)現(xiàn)數(shù)據(jù)倉庫搭建全流程定時(shí)自動(dòng)化調(diào)度以及故障自動(dòng)郵件告警；
采用SuperSet對(duì)調(diào)度采集至RDBMS數(shù)據(jù)庫中的結(jié)果數(shù)據(jù)進(jìn)行多圖表、儀表盤可視化展示；
采用Echarts，結(jié)合SpringBoot對(duì)結(jié)果數(shù)據(jù)進(jìn)行可視化展示，充分掌握數(shù)據(jù)展示接口編寫流程；
基于企業(yè)級(jí)數(shù)據(jù)倉庫的海量數(shù)據(jù)計(jì)算業(yè)務(wù)，對(duì)CPU配置、內(nèi)存分配、任務(wù)提交、任務(wù)執(zhí)行計(jì)劃等方面進(jìn)行全面的性能調(diào)優(yōu)；

二、實(shí)時(shí)數(shù)倉

項(xiàng)目涵蓋幾十個(gè)Flink實(shí)時(shí)計(jì)算任務(wù)、幾十個(gè)實(shí)時(shí)計(jì)算指標(biāo)、上萬行實(shí)時(shí)開發(fā)代碼。
參照大廠實(shí)際數(shù)倉建模理論，分層構(gòu)建實(shí)時(shí)數(shù)據(jù)倉庫，ODS層、DIM層、DWD層、DWS層、ADS層，分層計(jì)算，數(shù)據(jù)分流，提高效率，降低耦合度；
使用HBase+Phoenix的組合存儲(chǔ)DIM層維度數(shù)據(jù)，大大提高響應(yīng)速度；
使用Flink CDC結(jié)合MySQL動(dòng)態(tài)配置表，動(dòng)態(tài)獲取維度表配置，實(shí)現(xiàn)數(shù)據(jù)動(dòng)態(tài)自動(dòng)分流；
采用Redis進(jìn)行旁路緩存，提高響應(yīng)速度，并使用Flink提供的異步IO進(jìn)行優(yōu)化；
提供針對(duì)多種場(chǎng)景的雙流Join解決方案，深入分析各種解決方案的優(yōu)劣，培養(yǎng)問題解決能力；
靈活運(yùn)用Flink的狀態(tài)編程實(shí)現(xiàn)數(shù)據(jù)去重，計(jì)算去重類指標(biāo)；

對(duì)所有指標(biāo)計(jì)算需求提供基于Table API和Flink SQL的兩種解決方案，滿足不同企業(yè)開發(fā)需求，培養(yǎng)多角度開發(fā)能力；
使用FlinkCEP技術(shù)實(shí)現(xiàn)不同用戶行為模式的識(shí)別，完成用戶跳出行為的篩選；
采用Doris存儲(chǔ)最終寬表數(shù)據(jù)，大大提高數(shù)據(jù)查詢效率，并為用戶提供即席查詢、可視化報(bào)表展示的多樣可能性；
采用SpringBoot編寫數(shù)據(jù)展示接口對(duì)接SugarBI實(shí)現(xiàn)數(shù)據(jù)可視化大屏展示，熟練掌握數(shù)據(jù)展示接口的編寫流程
詳細(xì)講解生產(chǎn)環(huán)境中會(huì)產(chǎn)生的反壓問題，對(duì)反壓原因、反壓定位、反壓處理進(jìn)行詳細(xì)分解；
多角度分析大數(shù)據(jù)分析中常見的數(shù)據(jù)傾斜問題，提供詳盡的問題定位策略和多種解決方案；
? 詳細(xì)講解生產(chǎn)環(huán)境中常見的故障：非法配置異常、Java 堆空間異常、直接緩沖存儲(chǔ)器異常、元空間異常、網(wǎng)絡(luò)緩沖區(qū)數(shù)量不足、超出容器內(nèi)存異常、Checkpoint 失敗、Checkpoint 慢、Kafka動(dòng)態(tài)發(fā)現(xiàn)分區(qū)、Watermark不更新、依賴沖突、超出文件描述符限制、臟數(shù)據(jù)導(dǎo)致數(shù)據(jù)轉(zhuǎn)發(fā)失敗等，令學(xué)員在短時(shí)間內(nèi)掌握生產(chǎn)環(huán)境中常見到、難解決的開發(fā)難題，迅速增長經(jīng)驗(yàn)，提升能力。