hdfs

Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計成適合運行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點。但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束,來實現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS在最開始是作為Apache Nutch搜索引擎項目的基礎(chǔ)架構(gòu)而開發(fā)的。HDFS是Apache Hadoop Core項目的一部分。

HDFS有著高容錯性(fault-tolerant)的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以實現(xiàn)流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。

hdfs基本信息

全稱 Hadoop Distributed File System 簡稱 hdfs
實質(zhì) 分布式文件系統(tǒng) 作用 作為Apache Nutch的基礎(chǔ)架構(gòu)
特點 高容錯性 適用 大規(guī)模數(shù)據(jù)集

hdfs造價信息

市場價 信息價 詢價
材料名稱 規(guī)格/型號 市場價
(除稅)
工程建議價
(除稅)
行情 品牌 單位 稅率 供應(yīng)商 報價日期
暫無數(shù)據(jù)
材料名稱 規(guī)格/型號 除稅
信息價
含稅
信息價
行情 品牌 單位 稅率 地區(qū)/時間
暫無數(shù)據(jù)
材料名稱 規(guī)格/需求量 報價數(shù) 最新報價
(元)
供應(yīng)商 報價地區(qū) 最新報價時間
服務(wù)器與存儲-分布式NAS存儲 分布式軟件統(tǒng)一品牌)7、部署方式:Scale-out橫向擴展的分布式架構(gòu),節(jié)點間完全對稱,無獨立的元數(shù)據(jù)物理服務(wù)器或索引服務(wù)器;8、數(shù)據(jù)服務(wù):在一個集群內(nèi)同時提供塊存儲、文件存儲、對象以及HDFS存儲服務(wù),9、IPv6支持:同時支持IPv4和IPv6協(xié)議,在同時部署IPv4和IPv6組網(wǎng)的情況|1套 3 查看價格 北京神州新橋科技有限公司 全國   2022-04-29
分布式存儲 策略,可根據(jù)數(shù)據(jù)不同的保護級別在同一系統(tǒng)內(nèi)同時設(shè)置數(shù)據(jù)副本模式副本支持2-8副本;同一存儲系統(tǒng)同時支持Swift、S3、iSCSI、CIFS、NFS、FTP等協(xié)議,支持HDFS API;每個存儲節(jié)點配置|1臺 1 查看價格 廣州尚漢信息科技有限公司 全國   2022-01-07
云存儲 /iSCSI/FC接口的存儲設(shè)備、支持各種分布式文件系統(tǒng)(如Glusterfs、TFS、HDFS、DDN等)、存儲容量和性能可橫向擴展,支持通用磁帶和磁帶庫驅(qū)動管理,不限制存儲系統(tǒng)品牌;存儲系統(tǒng)支持數(shù)據(jù)冗|5套 1 查看價格 深圳市連用科技公司 廣東  深圳市 2018-09-11

hdfs常見問題

HDFS是什么?

HDFS 全稱 Hadoop Distributed File System ,簡稱HDFS,是一個分布式文件系統(tǒng)。它是谷歌的GFS提出之后出現(xiàn)的另外一種文件系統(tǒng)。它有一定高度的容錯性,而且提供了高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS 提供了一個高度容錯性和高吞吐量的海量數(shù)據(jù)存儲解決方案。

優(yōu)點

1、存儲超大文件

2、標準流式訪問:“一次寫入,多次讀取”

3、運行在廉價的商用機器集群上

不足

1、不能滿足低延遲的數(shù)據(jù)訪問

2、無法高效存儲大量小文件

3、暫時不支持多用戶寫入及隨意修改文件

HDFS概念理解

hdfs架構(gòu)圖如下:

1、文件塊(圖中1、2、3、4帶顏色的小正方形)

文件分成塊存儲(默認64M,如今版本是128是M),多臺計算機存儲。DateNode中存儲以數(shù)字編號的方塊(見上圖)用于備份,每個塊都會復(fù)制到幾臺機器上(默認3臺),如果一個塊不可用,可從其它地方讀取副本。副本是3,表示一共3處有該塊。如果配置文件中副本設(shè)置為 4 ,但是結(jié)果只有2臺datanode,最后副本還是2

1000個1M的小文件會占用1024個塊和1024個 inode,但是他只是占用1個塊中的1M,不會占用整個空間,不過由于inode存儲在NameNode的內(nèi)存里,如果NameNode內(nèi)存不足以存儲inode,那么就不能再存儲文件了、所以說HDFS并不適合存儲小文件,有時候還要將小文件合并為大文件。

顯示塊信息命令:

hdfs fsck / -files –blocks //列出根目錄下各個文件由哪些塊存儲。

//它只是從NameNode獲取信息,不與DateNode交互。

2、 NameNode和DataNode

NameNode(名字節(jié)點): 管理文件系統(tǒng)命名空間;維護文件系統(tǒng)樹內(nèi)所有文件和目錄,記錄每個文件在哪個DateNode的位置和副本信息,協(xié)調(diào)客戶端對文件的訪問。 以兩種文件格式存在:

fsimage_*:元數(shù)據(jù)鏡像文件,即系統(tǒng)的目錄樹,包括文件目錄和inodes元信息(文件名,文件大小,創(chuàng)建時間,備份級別,訪問權(quán)限,block的size,所有block的構(gòu)成),每個inode是hdfs的一個代表文件或者目錄的元數(shù)據(jù)。這個鏡像文件相當于hdfs的元數(shù)據(jù)額數(shù)據(jù)庫文件。

edits_*:編輯日志文件,也就是事務(wù)日志文件,也就是針對文件系統(tǒng)做的修改操作記錄,記錄元數(shù)據(jù)的變化,相當于操作日志文件。一個文件的創(chuàng)建,追加,移動等。 NameNode內(nèi)存中存儲的是=fsimage+edits 檢查點:NameNode啟動時,從磁盤中讀取上面兩種文件,然后把edits_*里面記錄的事務(wù)全部刷新到 fsimage_*中,這樣就截去了舊的edits_*事務(wù)日志,這個過程叫checkpoint。

上面文件在~/hadoop-2.6/dfs/name/current目錄下(在hdfs-site.xml) ,除此之外,還有VERSION(版本信息,包含文件系統(tǒng)唯一標識符)和seen_txid(事務(wù)管理,里面保存一個整數(shù),表示edits_*的尾數(shù))兩個文件。

DataNode(數(shù)據(jù)節(jié)點):存儲,檢索數(shù)據(jù)塊。定期向NameNode發(fā)送所存儲的塊的列表。存儲的塊大小是64M,并且盡量把數(shù)據(jù)塊分布不同的DateNode節(jié)點上。

上圖某文件被分成4塊,在多個DataNode中存儲,而且每塊都復(fù)制兩個備份,存儲在其它DataNode中。這些數(shù)據(jù)的存儲目錄/home/hduser/hadoop-2.6/dfs/data(dfs-site.xml中指定)。例如下面文件:/home/hduser/hadoop-2.6/dfs/data/current/BP-1111-ip-2222/current/finalized/subbdir0/sudir0,該目錄下的文件包括blk_{id}和blk_{id}.meta,前者是二進制格式的數(shù)據(jù)塊,后者是數(shù)據(jù)塊的元信息(版本信息,類型信息 )

DataNode負責(zé)處理文件系統(tǒng)客戶端的文件讀寫請求,并在NameNode的統(tǒng)一調(diào)度下進行數(shù)據(jù)的創(chuàng)建,刪除和復(fù)制工作。如果NameNode數(shù)據(jù)損壞,HDFS所有文件都不能訪問,為了保證高可用性,Hadoop對NameNode進行了補充,即Sencondary NameNode。

3、 Secondary NameNode結(jié)點

系統(tǒng)同步運行一個Secondary NameNode,也稱二級NameNode,周期的備份NameNode,它可以用來恢復(fù)NameNode。由于有一定的滯后,所以會帶來數(shù)據(jù)的損失。為了防止宕機,一般我們會把它放在另外一臺計算機。使用hdfs-site.xml中dfs.namenode.secondary.http-address屬性可以通過瀏覽器查看Secondary NameNode的運行狀態(tài)。 默認是1小時,從NameNode獲取fsimage和edits進行合并,然后再發(fā)送給namenode,減少namenode的工作量。

HDFS體系架構(gòu)

HDFS采用master/slave架構(gòu)。一個HDFS集群是由一個Namenode和一定數(shù)目的Datanodes組成。Namenode是一個中心服務(wù)器,負責(zé)管理文件系統(tǒng)的名字空間(namespace)以及客戶端對文件的訪問。集群中的Datanode一般是一個節(jié)點一個,負責(zé)管理它所在節(jié)點上的存儲。HDFS暴露了文件系統(tǒng)的名字空間,用戶能夠以文件的形式在上面存儲數(shù)據(jù)。從內(nèi)部看,一個文件其實被分成一個或多個數(shù)據(jù)塊,這些塊存儲在一組Datanode上。Namenode執(zhí)行文件系統(tǒng)的名字空間操作,比如打開、關(guān)閉、重命名文件或目錄。它也負責(zé)確定數(shù)據(jù)塊到具體Datanode節(jié)點的映射。Datanode負責(zé)處理文件系統(tǒng)客戶端的讀寫請求。在Namenode的統(tǒng)一調(diào)度下進行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。 一次寫,多次讀?。阂粋€文件一旦創(chuàng)建,寫入,關(guān)閉之后就不需要修改了。

讀寫流程如下: 讀流程:客戶端向NameNode請求訪問某個文件,NameNode返回該文件位置在哪個DataNode上,然后客戶端從DataNode上讀取數(shù)據(jù)。 寫流程:客戶端向NameNode發(fā)出寫文件寫請求,NameNode告訴客戶端向哪個DataNode寫文件,然后客戶端將文件寫入該DataNode節(jié)點,隨后該 DataNode將該文件自動復(fù)制到其它DataNode節(jié)點上,默認三份備份。

HDFS常見節(jié)點管理:1 節(jié)點添加 可擴展性是一個重要特征,往HDFS集群中添加一個節(jié)點步驟如下:

1) 對新節(jié)點進行系統(tǒng)配置(hostname,hosts,jdk,防火墻等)

2) 對新節(jié)點進行hadoop的安裝和配置,和其它DataNode一樣。

3) 在NameNode中修改~/hadoop-2.6/etc/hadoop/Slaves文件,加入新節(jié)點名稱。

4) 啟動(start-all.sh,或者start-dfs.sh,start-yarn.sh)

2 負載均衡 HDFS的數(shù)據(jù)在各個DataNode中的分布可能不均勻,尤其是DataNode出現(xiàn)故障或者新增節(jié)點時,采用下面命令可以重新平衡DataNode的數(shù)據(jù)塊分布: $start-balancer.sh

3 安全機制 由于NameNode統(tǒng)一調(diào)度,沒有它文件系統(tǒng)無法使用,采用下面兩種機制確保其安全:

1) 把NameNode存儲的元數(shù)據(jù)轉(zhuǎn)移到其它文件系統(tǒng)上。

2) 使用Secondary NameNode同步備份。

加米谷大數(shù)據(jù)是一家專注于大數(shù)據(jù)培訓(xùn)的機構(gòu),提供個人培訓(xùn)和企業(yè)內(nèi)訓(xùn);如果您是0基礎(chǔ)學(xué)習(xí)大數(shù)據(jù)或者轉(zhuǎn)行大數(shù)據(jù)行業(yè),歡迎實地了解考察!

本書以云計算與大數(shù)據(jù)基礎(chǔ)開篇,簡單介紹了分布式文件系統(tǒng)HDFS與NoSQL數(shù)據(jù)庫技術(shù),重點對分布式計算框架MapReduce、Hadoop技術(shù)、云數(shù)據(jù)中心、大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)進行了闡述。 2100433B

hdfs相關(guān)推薦
  • 相關(guān)百科
  • 相關(guān)知識
  • 相關(guān)專欄

最新詞條

安徽省政采項目管理咨詢有限公司 數(shù)字景楓科技發(fā)展(南京)有限公司 懷化市人民政府電子政務(wù)管理辦公室 河北省高速公路京德臨時籌建處 中石化華東石油工程有限公司工程技術(shù)分公司 手持無線POS機 廣東合正采購招標有限公司 上海城建信息科技有限公司 甘肅鑫禾國際招標有限公司 燒結(jié)金屬材料 齒輪計量泵 廣州采陽招標代理有限公司河源分公司 高鋁碳化硅磚 博洛尼智能科技(青島)有限公司 燒結(jié)剛玉磚 深圳市東海國際招標有限公司 搭建香蕉育苗大棚 SF計量單位 福建省中億通招標咨詢有限公司 泛海三江 威海鼠尾草 Excel 數(shù)據(jù)處理與分析應(yīng)用大全 廣東國咨招標有限公司 拆邊機 甘肅中泰博瑞工程項目管理咨詢有限公司 山東創(chuàng)盈項目管理有限公司 當代建筑大師 廣西北纜電纜有限公司 大山檳榔 上海地鐵維護保障有限公司通號分公司 舌花雛菊 甘肅中維國際招標有限公司 華潤燃氣(上海)有限公司 湖北鑫宇陽光工程咨詢有限公司 GB8163標準無縫鋼管 中國石油煉化工程建設(shè)項目部 韶關(guān)市優(yōu)采招標代理有限公司 莎草目 電梯平層準確度 建設(shè)部關(guān)于開展城市規(guī)劃動態(tài)監(jiān)測工作的通知 廣州利好來電氣有限公司 四川中澤盛世招標代理有限公司