千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻

千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

行業頭條

哈爾濱選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

哈密選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼和浩特選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼倫貝爾選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吳忠選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呂梁選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吉安選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

合肥選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

臺州選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

廈門選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

400-811-9990 全國咨詢熱線

首頁精品課程

Java

鴻蒙開發

HTML5

物聯網

云計算

Python

軟件測試

網絡安全

大數據

Unity

UI/UE設計

全媒體營銷

影視剪輯

游戲原畫

區塊鏈

產品經理

商業插畫

PMP認證

紅帽RHCE

軟考認證

華為認證

出國留學

安全認證

更多課程

免費教程
HTML5視頻教程 Java視頻教程 Python視頻教程 UI視頻教程云計算視頻教程軟件測試視頻教程大數據視頻教程物聯網視頻教程 Unity視頻教程網絡安全視頻教程全媒體視頻教程影視剪輯視頻教程
教研實力
教研院項目庫師資團隊項目大賽
校企服務
企業內訓高校合作學科共建
就業服務
就業服務雙選會上門招聘人才定制促就業行動
認證考試
PMP培訓軟考培訓紅帽RHCE認證學歷提升
千鋒問問行業資訊技術干貨熱點話題
零基礎學IT IT培訓機構 IT面試題 IT就業前景
關于千鋒
千鋒簡介鋒益公益大賽組織品牌活動
聯系我們

當前位置：首頁 > 技術干貨 > Hive數據傾斜

Hive數據傾斜

來源：千鋒教育

發布人：qyf

時間： 2022-10-08 11:39:17 1665200357

　　MapReduce任務中，Map輸出數據按Key Hash分配到Reduce中，由于Key分布不均勻、業務數據本身的特性、建表時考慮不周、某些SQL語句本身就有數據傾斜等原因造成的reduce上的數據量差異過大，如何將數據均勻的分配到各個Reduce中，就是解決數據傾斜的根本所在，舉三個例子

　　Map 端聚合

　　-- 設置如下參數即可開啟map端聚合，就是在Map端將相同的Key先做一次聚合計算，減少往reduce發送的數據

　　set hive.map.aggr=true

　　GroupBy 產生的數據傾斜

　　-- 設置如下參數，在GroupBy時，生成兩個Job,第一個Job給GroupBy的key加隨機數，隨機分布到Reduce中，每個Reduce做

　　部分聚合操作，先縮小數據量。第二個Job再進行真正的數據處理，完成最終的聚合

　　set hive.groupby.skewindata = true

　　count(distinct)

　　-- count(distinct) 數據傾斜，可以使用 sum + groupby 來完成等價轉換，

　　-- 原始SQL

　　select count(distinct uuid) from t1;

　　-- 等價轉換SQL，其實就是采用分治思路，我們按照uuid的前n位進行GROUP BY，并做COUNT(DISTINCT )操作，

　　然后再對所有的COUNT(DISTINCT)結果進行求和

　　select sum(agg_part) result from

　　(

　　select substr(uuid,1,3) uuid_part,

　　count(distinct substr(uuid,4)) as agg_part

　　from t1

　　group by substr(uuid,1,3)

　　)t

tags:

聲明：本站稿件版權均屬千鋒教育所有，未經許可不得擅自轉載。

10年以上業內強師集結，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內將與您1V1溝通

免費領取

今日已有369人領取成功

劉同學 138****2860 剛剛成功領取

王同學 131****2015 剛剛成功領取

張同學 133****4652 剛剛成功領取

李同學 135****8607 剛剛成功領取

楊同學 132****5667 剛剛成功領取

岳同學 134****6652 剛剛成功領取

梁同學 157****2950 剛剛成功領取

劉同學 189****1015 剛剛成功領取

張同學 155****4678 剛剛成功領取

鄒同學 139****2907 剛剛成功領取

董同學 138****2867 剛剛成功領取

周同學 136****3602 剛剛成功領取

上一篇

關于我“不用投放獲過萬流量”這件事

下一篇

Redis的緩存穿透、緩存雪崩、緩存擊穿

免費打包獲取

相關推薦HOT

大數據測試工程師需要具備哪些技能?

一、理解大數據概念大數據測試工程師需要理解大數據的基本概念和原理，如分布式存儲、MapReduce、實時計算等。他們還需要了解如何處理大規模的...詳情>>

2023-10-14 23:43:03

為什么SpringBoot的 jar 可以直接運行?

一、JAR文件的結構與執行方式Spring Boot的JAR包是Java Archive的縮寫，它是一種壓縮文件格式，可以將Java項目的類文件、資源文件以及依賴庫等...詳情>>

2023-10-14 23:01:49

站群服務器是什么?

站群服務器的含義與用途站群服務器主要用于支持站群，即由一組相互鏈接的網站組成的群體。這些網站通常由同一組織或個人擁有，并且經常會互相鏈...詳情>>

2023-10-14 22:46:12

自編碼器是什么?

一、自編碼器原理自編碼器的設計靈感源于神經科學中關于感知系統的認知原理，它的核心思想是將輸入數據經過編碼過程，形成一個隱藏層的特征表示...詳情>>

2023-10-14 22:41:10

什么是云網融合?

一、云網融合的定義云網融合是指將云計算與網絡技術相結合，實現資源的共享、業務的協同，將網絡與云端服務深度融合，提供更靈活、高效、安全的...詳情>>

2023-10-14 22:31:47

熱門推薦

敏捷開發和迭代式開發的根本區別是什么?

flutter和uni-app在應用層面有什么區別?

Flutter和 qt的區別都有什么?

rnn和lstm中batchsize和timestep的區別是什么?

什么是OA服務器?

常用的滲透測試工具都有哪些?

大數據測試工程師需要具備哪些技能?

壓力測試和性能測試有什么區別?

什么是運行時環境?

什么是MAC地址?

技術干貨更多>>

如何實現服務器負載均衡

2023-12-06

linux有哪些優勢和劣勢

2023-12-06

linux需要驅動嗎

2023-12-06

android與linux的區別

2023-12-06

如何搭建基于容器的深度學習環境

2023-12-06

職場就業更多>>

網絡安全軟件開發的就業前景

2023-12-09

學會python工程師后的就業前景

2023-12-09

學會java工程師后的就業前景

2023-12-09

云計算技術就業前景以及發展方向怎樣？

2023-08-07

快速通道

培訓機構
了解培訓相關
就業前景
查看就業前景
培訓門檻
了解學習門檻
應聘面試
常見面試考題
就業服務
畢業推薦就業
師資團隊
了解師資團隊

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

久久亚洲中文字幕精品一区四,亚洲日本另类欧美一区二区,久久久久久久这里只有免费费精品,高清国产激情视频在线观看

亚洲国产gⅴ精品一区二区久久精品国产亚洲怮 | 亚洲性色在线视频 | 揄拍手机视频在线 | 亚洲国产AV午夜福利精品一区 | 在%亚洲中文字幕 | 制服丝袜中文字幕丝袜专区 |