HBase技術詳細介紹(2)_數據庫_領測軟件測試網

劉慈欣談ChatGPT：人類的無能反而

劉慈欣談ChatGPT：人類的無能反而

OpenAI 因使用“竊取”的個人數據

OpenAI 因使用“竊取”的個人數據

搜狐回應員工遭遇工資補助詐騙：

搜狐回應員工遭遇工資補助詐騙：

軟件測試 > 測試開發技術 > 軟件測試開發語言 > 數據庫 >

HBase技術詳細介紹(2)

發表于：2015-07-10來源：uml.org.cn作者：不詳點擊數：標簽：數據庫

HMaster HMaster沒有單點問題，HBase中可以啟動多個HMaster，通過Zookeeper的Master Election機制保證總有一個Master運行，HMaster在功能上主要負責Table和Region的管理工作

　　HMaster

　　HMaster沒有單點問題，HBase中可以啟動多個HMaster，通過Zookeeper的Master Election機制保證總有一個Master運行，HMaster在功能上主要負責Table和Region的管理工作：

　　1. 管理用戶對Table的增、刪、改、查操作

　　2. 管理HRegionServer的負載均衡，調整Region分布

　　3. 在Region Split后，負責新Region的分配

　　4. 在HRegionServer停機后，負責失效HRegionServer 上的Regions遷移

　　HRegionServer

　　HRegionServer主要負責響應用戶I/O請求，向HDFS文件系統中讀寫數據，是HBase中最核心的模塊。

　　HRegionServer內部管理了一系列HRegion對象，每個HRegion對應了Table中的一個 Region，HRegion中由多個HStore組成。每個HStore對應了Table中的一個Column Family的存儲，可以看出每個Column Family其實就是一個集中的存儲單元，因此最好將具備共同IO特性的column放在一個Column Family中，這樣最高效。

　　HStore存儲是HBase存儲的核心了，其中由兩部分組成，一部分是MemStore，一部分是StoreFiles。 MemStore是Sorted Memory Buffer，用戶寫入的數據首先會放入MemStore，當MemStore滿了以后會Flush成一個StoreFile(底層實現是HFile)，當StoreFile文件數量增長到一定閾值，會觸發Compact合并操作，將多個StoreFiles合并成一個StoreFile，合并過程中會進行版本合并和數據刪除，因此可以看出HBase其實只有增加數據，所有的更新和刪除操作都是在后續的compact過程中進行的，這使得用戶的寫操作只要進入內存中就可以立即返回，保證了HBase I/O的高性能。當StoreFiles Compact后，會逐步形成越來越大的StoreFile，當單個StoreFile大小超過一定閾值后，會觸發Split操作，同時把當前 Region Split成2個Region，父Region會下線，新Split出的2個孩子Region會被HMaster分配到相應的HRegionServer 上，使得原先1個Region的壓力得以分流到2個Region上。下圖描述了Compaction和Split的過程：

　　在理解了上述HStore的基本原理后，還必須了解一下HLog的功能，因為上述的HStore在系統正常工作的前提下是沒有問題的，但是在分布式系統環境中，無法避免系統出錯或者宕機，因此一旦HRegionServer意外退出，MemStore中的內存數據將會丟失，這就需要引入HLog了。每個HRegionServer中都有一個HLog對象，HLog是一個實現Write Ahead Log的類，在每次用戶操作寫入MemStore的同時，也會寫一份數據到HLog文件中(HLog文件格式見后續)，HLog文件定期會滾動出新的，并刪除舊的文件(已持久化到StoreFile中的數據)。當HRegionServer意外終止后，HMaster會通過Zookeeper感知到，HMaster首先會處理遺留的 HLog文件，將其中不同Region的Log數據進行拆分，分別放到相應region的目錄下，然后再將失效的region重新分配，領取到這些region的HRegionServer在Load Region的過程中，會發現有歷史HLog需要處理，因此會Replay HLog中的數據到MemStore中，然后flush到StoreFiles，完成數據恢復。

　　HBase存儲格式

　　HBase中的所有數據文件都存儲在Hadoop HDFS文件系統上，主要包括上述提出的兩種文件類型：

　　1. HFile， HBase中KeyValue數據的存儲格式，HFile是Hadoop的二進制格式文件，實際上StoreFile就是對HFile做了輕量級包裝，即StoreFile底層就是HFile

　　2. HLog File，HBase中WAL(Write Ahead Log) 的存儲格式，物理上是Hadoop的Sequence File

　　HFile

　　下圖是HFile的存儲格式：

　　首先HFile文件是不定長的，長度固定的只有其中的兩塊：Trailer和FileInfo。正如圖中所示的，Trailer 中有指針指向其他數據塊的起始點。File Info中記錄了文件的一些Meta信息，例如：AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等。Data Index和Meta Index塊記錄了每個Data塊和Meta塊的起始點。

　　Data Block是HBase I/O的基本單元，為了提高效率，HRegionServer中有基于LRU的Block Cache機制。每個Data塊的大小可以在創建一個Table的時候通過參數指定，大號的Block有利于順序Scan，小號Block利于隨機查詢。每個Data塊除了開頭的Magic以外就是一個個KeyValue對拼接而成, Magic內容就是一些隨機數字，目的是防止數據損壞。后面會詳細介紹每個KeyValue對的內部構造。

原文轉自：http://www.uml.org.cn/sjjm/201409305.asp

相關文章

軟件測試沙龍 More>>

新浪微博 More>>

熱門標簽

国产97人人超碰caoprom_尤物国产在线一区手机播放_精品国产一区二区三_色天使久久综合给合久久97