一.大數據平臺測試簡述
大數據平臺測試包括2部分:基礎能力測試和性能測試
Ⅰ).基礎能力測試
大數據平臺的基本功能和數據的導入導出對SQL任務、NoSQL任務、機器學習、批處理任務的支持
大數據平臺是否能夠通過界面的形式方便用戶進行非運行維護,主要包括集群的安裝、監控、配置、操作等
大數據平臺是否能夠提供基本的安全方案
a).是否具備認證功能以防止惡意訪問和攻擊
b).是否能夠進行細粒度的權限管理
c).是否能夠提供審計和數據加密功能
大數據平臺是否具備高可用的機制,防止機器的失效帶來的任務失敗以及數據丟失
大數據平臺是否能夠支持機器快速平滑地擴展和縮容時帶來線性的計算能力
大數據平臺是否能夠支持多個調用接口以及對SQL語法的支持情況
大數據平臺是否能夠根據隊列、用戶的權重來細粒度地分配計算資源
Ⅱ).性能測試
基準測試:數據生成、負載選擇和明確測試指標等內容
性能測試:基準測試之上的擴展
二.大數據平臺測試流程
Ⅰ).數據生成
BDGS: 能夠快速生成保持真實數據特性的文本、表和圖數據的數據生成工具
BDGS構造方法
a).數據篩選:選取代表性的真實數據集和相應的建模方法或工具
b).原始數據處理:對真實數據采樣并建模,提取數據特性
c).數據生成:通過參數控制數據規模和并行度
d).格式轉化:根據負載的輸入需求轉換生成數據的格式
Ⅱ).負載選擇
負載選擇策略: 負載需覆蓋大數據處理平臺的主要組件即分布式計算框架、分布式文件系統和分布式存儲的能力
Ⅲ).測試指標
主要從性能、能耗、性價比和可用性4個維度來測試對比平臺性能
三.大數據平臺測試工具
Ⅰ).平臺單組件測試
測試應用單一、效率高、成本低,但無法全面衡量大數據平臺性能
Ⅱ).綜合平臺測試
覆蓋面廣,可以較全面測試衡量大數據平臺不同類型任務的性能,通用性好
測試工具BigDataBench:
a).概念:是一個跨系統、體系結構、數據管理 3個領域的大數據基準測試開源程序集
b).應用領域:搜索引擎、電子商務、社交網絡、多媒體、生物信息
c).負載類型:離線分析、交互式分析、在線服務、Nosql
d).數據類型:結構化、半結構化、非結構化
測試工具Hibench:
a).概念:是一個大數據基準測試套件,可幫助評估大數據框架的速度,吞吐量和系統資源利用率
b).測試范圍:HadoopBench、SparkBench、StormBench、FlinkBench、GearpumpBench、機器學習、網頁搜索
c).負載類型:實時場景、離線場景
d).數據類型:結構化、半結構化
e).功能模塊:對于hive:(aggregation,scan,join)、排序(sort,TeraSort)、大數據基本算法(wordcount,pagerank,nutchindex)、機器學習算法(kmeans,bayes)、集群調度(sleep)、吞吐(dfsio)、5.0版本的流測試
測試工具TPCx-HS Kit
a).概念:第一個標準化的大數據基準測試,旨在對Hadoop集群進行壓力測試
b).囊括模塊:HSGen數據生成器、HSDataCheck檢查數據集和副本的符合性、HSSort數據排序、HSValidatate排序后的數據校驗
c).測試指標:性能、價格性能和可用性
d).負載類型:實時場景、離線場景
測試工具BSMA
a).概念:基于Yahoo的YCSB的大數據性能測試工具
b).測試場景:社交網絡查詢、熱點查詢、時間線查詢
c).負載類型:離線分析、Nosql
d).測試指標:吞吐量、延時、可伸縮性
Ⅲ).應用領域端到端測試
可以與企業場景的實際業務場景結合,覆蓋企業大數據業務的全流程模擬測試
測試工具BigBench
a).概念:于2016年2月被TPC委員會接受以后被命名為TPCx-BB,在此之前叫BigBench;TPCx-BB性能評估標準有兩個,一是根據軟硬件性能評估,二是根據軟硬件性價比評估
b).測試領域:零售商
c).負載類型:離線分析
d).數據類型:結構化、半結構化、非結構化
Ⅰ).平臺基準測試用例
主要是從性能的角度衡量大數據平臺,包括數據生成、負載選擇和明確測試指標等內容
Ⅱ).平臺性能測試用例
在基準測試的基礎上擴展測試內容,增加SQL任務測試比重
Ⅲ).平臺基礎能力測試用例
原文轉自:https://developer.aliyun.com/article/712913