hadoop是做什么的?
Hadoop是一個開源的大數據框架,是一個分布式計算的解決方案。Hadoop的兩個核心解決了數據存儲問題(HDFS分布式文件系統)和分布式計算問題(MapRe-duce)。
舉例1:用戶想要獲取某個路徑的數據,數據存放在很多的機器上,作為用戶不用考慮在哪臺機器上,HD-FS自動搞定。
舉例2:如果一個100p的文件,希望過濾出含有Hadoop字符串的行。這種場景下,HDFS分布式存儲,突破了服務器硬盤大小的限制,解決了單臺機器無法存儲大文件的問題,同時MapReduce分布式計算可以將大數據量的作業先分片計算,最后匯總輸出。
學hadoop需要什么基礎?難學嗎?
學hadoop之前需要會虛擬機搭建,Linux操作系統設置、Python或者Java語言等,詳細如下:
一、Linux:
1、需要能夠熟練操作linux常用命令以及網絡配置;
2、熟悉用戶以及權限管理操作;
3、需要熟悉軟件包以及系統命令管理;
4、還需要學習一下shell編程。
二、Java:
1、需要具備一定的javase基礎知識;
2、如果懂java web及各種框架知識那就更好了。
三、虛擬機:
1、需要掌握虛擬機;
2、需要安裝linux操作系統;
3、需要配置虛擬機網絡。
除了上述這幾個方面,我們還需要了解hadoop的單機模式、偽分布模式和分布式模式的搭建方式。了解MapReduce分布式計算框架、Yarn集群資源管理和調度平臺、hdfs分布式文件系統、hive數據倉庫、HBase實時分布式數據庫、Flume日志收集工具、sqoop數據庫ETL工具、zookeeper分布式協作服務、Mahout數據挖掘庫等。