1. 數據傾斜
答案:避免熱點key設計,雙keyby設計
2. checkpoint優化
答案:
1)降低Source的并發度、拉取頻率、拉取量
2)提高checkpoint發送頻率
3)提升同是處理線程數(實操)
4)提高checkpoint超時時間
3.如何保證數據質量(數倉)?
答案:數據質量:指我們數據加工、轉換、計算等整個流程中的數據正確性,主要體現在ODS層和ADS層急需要數據質量,ODS主要判斷ODS中的數據和業務庫中的數據是否一致(條數),ADS層主要是看最終指標是否正確,也即入口和出口一定把質量監控好。
1)大公司就可以說是公司自研的數據質量系統來保障數據質量,保證ODS同步數據是否多少、可以配置ODS層數據量為上游數據的百分比、可以配置告警。如:業務庫訂單表今天3000萬條,但是采集到ODS層2000萬條,配置告警規則為業務庫orders/ods層orders=100%,這個時候肯定就要觸發告警,因為訂單涉及到錢,一條數據都不能丟。行為日志可以丟一些,自行根據需求設置即可。
2)小公司,就是將1步驟中的實現過程自己實現,比如第一個版本使用Shell腳本自己實現ODS層和ADS層數據質量監控的;第二版本自己寫的web項目來對數據質量監控,主要實現數據條數、同環比指標的一些監控。或者使用開源的框架:Griffin或DolphinScheduler 3.0就有數據質量功能了。
4.女生學習大數據技術可以嗎,會不會受到歧視?
答案: 女生學習大數據技術可以嗎,會不會受到歧視? - 擁抱大數據的回答 - 知乎
5.更新大數據隨堂視頻(zookeeper-功能介紹)
答案:zookeepr-功能介紹 - 擁抱大數據的視頻 - 知乎
6.更新大數據隨堂視頻(zookeeper-集群搭建)
答案:zookeeper-集群搭建 - 擁抱大數據的視頻 - 知乎
更多關于大數據培訓的問題,歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年IT培訓服務經驗,采用全程面授高品質、高體驗培養模式,擁有國內一體化教學管理及學員服務,助力更多學員實現高薪夢想。