在3月19日舉辦的ChinaHadoopSummit(中國(guó)Hadoop技術(shù)峰會(huì))上,中國(guó)Hadoop大數(shù)據(jù)廠商紅象云騰與OpenPOWER基金會(huì)共同發(fā)布紅象云騰的新一代大數(shù)據(jù)產(chǎn)品,幫助企業(yè)高速處理PB規(guī)模數(shù)據(jù)。
此次發(fā)布的兩款新產(chǎn)品中,“紅象數(shù)據(jù)高鐵-CRH4”的RedHadoopEnterpriseCRH4ForPOWER版軟件,是全球第一個(gè)支持OpenPOWER服務(wù)器的Hadoop商業(yè)版本。同時(shí)發(fā)布的RedHadoopEnterpriseCRH4ForPOWEREC版軟件,支持HadoopHDFSErasureCodeCAPIFPGA加速方案,也是全球第一個(gè)支持Erasurecode(可擦除碼)在FPGA/CAPI上實(shí)現(xiàn)的商業(yè)發(fā)行版Hadoop方案。
用“高鐵”比喻Hadoop,源自二者動(dòng)力原理的相似:高鐵的效率比傳統(tǒng)火車(chē)快,是因?yàn)槊抗?jié)車(chē)廂都有動(dòng)力,而不僅僅是火車(chē)頭有動(dòng)力?;诜植际郊夹g(shù)的Hadoop的原理即把數(shù)據(jù)分塊,通過(guò)并行運(yùn)算來(lái)提高數(shù)據(jù)檢索、查詢、分析等操作的效率,每臺(tái)機(jī)器都有自己的動(dòng)力(計(jì)算力)與存儲(chǔ),從而提供充沛的動(dòng)力和功能模塊來(lái)提升客戶的大數(shù)據(jù)應(yīng)用環(huán)境。
北京紅象云騰系統(tǒng)技術(shù)有限公司總經(jīng)理童小軍演講
可以看出這兩款產(chǎn)品都是為OpenPOWER服務(wù)器定制的。從OpenPOWER生態(tài)的角度看,兩款大數(shù)據(jù)產(chǎn)品的發(fā)布也進(jìn)一步完善了OpenPOWER的生態(tài)鏈。據(jù)北京紅象云騰系統(tǒng)技術(shù)有限公司總經(jīng)理童小軍介紹,基于OpenPOWER服務(wù)器的開(kāi)發(fā)的RedHadoop的性能大幅提高。標(biāo)準(zhǔn)的Hadoop測(cè)試表明:在OpenPOWER服務(wù)器上的Redhadoop測(cè)試值,是在x86服務(wù)器上測(cè)試值的三倍。同時(shí),RedHadoop借助FPGA/CAPI來(lái)實(shí)現(xiàn)ErasureCode加速算法,將原本社區(qū)版的三份副本的存儲(chǔ)量縮小到原來(lái)的一半,大大降低磁盤(pán)使用,節(jié)省一半磁盤(pán)成本,并通過(guò)紅象DataBank產(chǎn)品實(shí)現(xiàn)界面化操作數(shù)據(jù),提高大數(shù)據(jù)工具使用效率。
據(jù)悉,作為Hadoop社區(qū)經(jīng)典難題,ErasureCode(可擦除碼)是由Xilinx、IBM中國(guó)研究院和紅象云騰、恒揚(yáng)科技、中太、烽火科技等OpenPOWER成員及合作伙伴聯(lián)合研發(fā)的。
“大家都在盼望Erasurecode,這個(gè)功能在Hadoop1.0年代存在,但是到了Hadoop2.0年代就被取消了。這其實(shí)是非常好的功能,可以大大節(jié)省硬盤(pán)存儲(chǔ)。”中國(guó)Hadoop技術(shù)峰會(huì)主席何建軍評(píng)價(jià)說(shuō),“隨著我們?nèi)ツ觊_(kāi)始倡導(dǎo)第二代分布式計(jì)算架構(gòu),今天的Erasurecode第一次真正意義上實(shí)現(xiàn)了分布式計(jì)算,把CPU不適用的算法挪到了FPGA/CAPI上,而FPGA/CAPI上來(lái)計(jì)算擦除碼是傳統(tǒng)軟件算法的300倍。我很高興,今天我們的Hadoop愛(ài)好者們可以享受到更好的技術(shù)。”
據(jù)悉,這一系列產(chǎn)品具備分布式存儲(chǔ)和計(jì)算功能,支持PB級(jí)海量數(shù)據(jù)存儲(chǔ)和批處理、流處理、內(nèi)存計(jì)算、多維查詢、搜索引擎等,支持在其前往數(shù)據(jù)中進(jìn)行分鐘級(jí)統(tǒng)計(jì)和秒級(jí)延遲檢索,在在線(Online)、近線(NearLine)、離線(OffLine)三大應(yīng)用場(chǎng)景做場(chǎng)景優(yōu)化,為用戶提供全場(chǎng)景的大數(shù)據(jù)平臺(tái)解決方案。與此配套的RedhadoopDatabank則成功提升大數(shù)據(jù)人機(jī)交互,通過(guò)可視化數(shù)據(jù)展現(xiàn)和多維度查詢,讓Hadoop使用更安全,更簡(jiǎn)單,更快速。
并且這些大數(shù)據(jù)產(chǎn)品已在聯(lián)想集團(tuán)、NTT-DOCOMO、中國(guó)航天等企業(yè)順利上線,管理最大集群超過(guò)100臺(tái),數(shù)據(jù)達(dá)到4.8PB規(guī)模。其中,聯(lián)想集團(tuán)通過(guò)紅象Hadoop和奧飛ETL,在三個(gè)月內(nèi)完成完成了數(shù)據(jù)倉(cāng)庫(kù)、實(shí)時(shí)計(jì)算、多維查詢等應(yīng)用,出數(shù)效率提高到分鐘級(jí)別。
背景知識(shí)
紅象云騰公司于2016年初加入OpenPOWER基金會(huì),并提出+Hadoop戰(zhàn)略——將HADOOP技術(shù)融入到各種應(yīng)用場(chǎng)景中,打造“芯片、操作系統(tǒng)、云計(jì)算、算法(深度學(xué)習(xí))、應(yīng)用、行業(yè)”+Hadoop等多個(gè)細(xì)分戰(zhàn)略方向。
更多資訊,請(qǐng)關(guān)注人機(jī)界面頻道。