- 智能云存儲系統(tǒng) 您現(xiàn)在的位置 :首頁 -- 技術論壇 -- 智能云存儲系統(tǒng)
大話冷存儲
來源:金錢貓科技股份有限公司 發(fā)表于:2018-04-23 瀏覽718次 |
(一)技術背景
智能互聯(lián)網時代,數(shù)據正在以幾何量級爆炸式增長。EMC的預測報告顯示,到2020年,全球數(shù)據總量預計會超過44ZB(1ZB=220PB)。如此海量的數(shù)據中蘊含著巨大的價值,特別是大數(shù)據的“低價值密度”特性使大規(guī)模數(shù)據的完備保存成為必然需求,因此如何提升數(shù)據的存儲管理效率是業(yè)界亟待解決的問題。
根據被訪問的頻度不同,數(shù)據可以被分為“熱數(shù)據、溫數(shù)據、冷數(shù)據”三種類型。其中,冷數(shù)據特指活動不頻繁、不會被經常訪問甚至永遠不會被訪問,但仍然需要長期保留的數(shù)據。熱數(shù)據受到業(yè)務特征、用戶行為乃至監(jiān)管政策的影響(例如,醫(yī)院的醫(yī)學影像文件需要自患者最后一次就診之日起保存不少于15年),經過一段時間的使用后,絕大部分數(shù)據都會迅速變“冷”。因此,數(shù)據集合中通常有高達80%的部分屬于不常被訪問的冷數(shù)據。然而,冷數(shù)據并非失去價值,大數(shù)據、人工智能等新興業(yè)務對海量冷數(shù)據進行檢索和挖掘的需求依然存在而且日益迫切。
當前熱數(shù)據高效存儲/訪問技術的發(fā)展導致存儲數(shù)據總量指數(shù)性爆發(fā),面對當前數(shù)據規(guī)模快速增長的趨勢,冷數(shù)據如何管理已成為存儲領域的關注熱點。冷數(shù)據高效管理的核心需求在于降低海量數(shù)據冷存儲的成本(特別是系統(tǒng)運行功耗)。2015年我國數(shù)據中心的電量總消耗為1000億度,超過全社會年用電量的1.5%,存儲系統(tǒng)消耗電量占總消耗的30%,其中冷存儲消耗占比存儲系統(tǒng)總消耗為24%。同時,系統(tǒng)存取性能有待提升,使冷數(shù)據能夠以近線存儲的方式被訪問。
(二)海量數(shù)據冷存儲技術關鍵
1、數(shù)據的分級,主要是指從海量數(shù)據中根據文件的訪問頻率、價值等因素,進行冷、熱數(shù)據的分類,甚至分出更細的數(shù)據類型,如“溫數(shù)據”、“冰數(shù)據”等。目前常見的數(shù)據分級方法主要有兩類,一類是業(yè)務數(shù)據的分類,即基于具體的業(yè)務類型,結合長期以來的運營經驗,進行運營級的數(shù)據分類。另一類是基于數(shù)據存取特性的分類,即借助存儲軟件系統(tǒng)自動進行數(shù)據的冷熱分級。通過存儲軟件系統(tǒng)對數(shù)據進行冷熱監(jiān)控,統(tǒng)計分析一個時間周期內的IO冷熱程度,并按照設定的分類策略自動進行數(shù)據的分類,并將冷數(shù)據從前端業(yè)務存儲系統(tǒng)遷移到冷數(shù)據存儲系統(tǒng)。
2、數(shù)據的壓縮去重,提高有效數(shù)據的存儲比例。為了提升數(shù)據存儲的可靠性,通常會對數(shù)據進行多副本存儲,但多副本的方式會帶來存儲數(shù)據量的倍增。為了進一步提升存儲效率,在一些讀寫性能要求較低的場景下,可以選擇只保存校驗數(shù)據。
3、運營能力的提升,海量數(shù)據的存儲需要更智能化的運維系統(tǒng),包括對數(shù)據的定期巡檢、數(shù)據的精細化分類、自動化的數(shù)據遷移、故障預測及定位、設備的休眠等機房節(jié)能措施。此外,存儲的架構設計也是當前的研究熱點,包括設備的分級、存儲介質的選型、數(shù)據存儲格式、數(shù)據檢索、對外服務接口等。
此外,數(shù)據訪問延遲、整體讀取速率以及數(shù)據持久性等,也是海量冷數(shù)據存儲的關鍵技術。這些關鍵技術相互制約影響,尤其是在運營能力提升方面,涉及的因素眾多,對冷數(shù)據存儲的選型提出了新的挑戰(zhàn)。
大數(shù)據時代,冷數(shù)據占到總數(shù)據的80%左右。而這些冷數(shù)據同樣重要,許多大數(shù)據分析都要基于冷數(shù)據來進行,而且許多數(shù)據要求保存的時間非常長,例如銀行、社保等數(shù)據,一般都要保存70~100年的時間。傳統(tǒng)的觀點認為“硬盤存儲不論使用和閑置,都會消耗能量”,因此多采用磁帶或者光盤來保存冷存儲數(shù)據。但是,磁帶訪問慢,光盤容量小,操作復雜,很難滿足大數(shù)據時代數(shù)據實時在線、快速訪問的需求。而實際上,隨著疊瓦式磁記錄等硬盤技術的發(fā)展,硬盤容量原來越大,能耗越來越低,為此,金錢貓研發(fā)了一套基于硬盤的大數(shù)據智能冷存儲系統(tǒng).
金錢貓大數(shù)據冷存儲系統(tǒng)的主要功能包括:支持海量數(shù)據存儲;實現(xiàn)了全局命名空間,所有應用看到統(tǒng)一的文件系統(tǒng)視圖;支持標準接口,應用無需修改直接運行;元數(shù)據存儲于內存,確保了文件的訪問速度;多級存儲備份,靈活支持磁盤-磁帶的分級存儲與備份,擁有完備的文件管理功能;支持硬盤智能通斷電,數(shù)據自動遷移,綠色節(jié)能;通過大數(shù)據分析,對存儲系統(tǒng)畫像,給出存儲系統(tǒng)規(guī)劃智能決策;透明管理異構存儲系統(tǒng),能夠實現(xiàn)跨系統(tǒng)的數(shù)據整合,保護用戶投資。
(金錢貓科技)