盡管AI還未完全成熟,但其推動(dòng)力已經(jīng)開(kāi)始顯現(xiàn),存儲(chǔ)需求回升明顯。”劉嘉說(shuō)。24T、30T的容量增長(zhǎng)已成為共識(shí),接下來(lái)則是對(duì)性能的更高要求。
固態(tài)硬盤(pán)性能更高,機(jī)械硬盤(pán)高容量和低成本,也成為新一輪AI浪潮的一種選擇。2024財(cái)年希捷發(fā)貨量顯著增長(zhǎng),特別是企業(yè)級(jí)需求占比達(dá)到80%左右,推動(dòng)了單盤(pán)容量的提升,尤其是20TB以上的大容量硬盤(pán)需求,實(shí)現(xiàn)性能與成本的平衡已經(jīng)成為企業(yè)下一階段重點(diǎn)考慮的方向。
![機(jī)械硬盤(pán)與AI并進(jìn),大容量存儲(chǔ)的未來(lái)](http://www.1jiwang.com/uploads/image/2024/0919/1JF12M80.jpg)
希捷中國(guó)區(qū)產(chǎn)品部總監(jiān)劉嘉
生成式AI下的存儲(chǔ)選擇
生成式AI席卷而來(lái),不同于最直觀的算力,存儲(chǔ)能做點(diǎn)什么?希捷從中看到了三個(gè)影響存儲(chǔ)的趨勢(shì)。
第一,數(shù)據(jù)生產(chǎn)加速:IDC報(bào)告數(shù)據(jù)顯示,2023年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模達(dá)179.3億元人民幣,相比2022年增長(zhǎng)24.6%。希捷認(rèn)為到2028年數(shù)據(jù)生產(chǎn)都會(huì)處在加速的狀態(tài),一個(gè)原因是生產(chǎn)數(shù)據(jù)的內(nèi)容越來(lái)越豐富,文字、視頻、文生內(nèi)容,另一個(gè)原因是更多的數(shù)據(jù)需要留存,預(yù)計(jì)到2028年,生成式AI將產(chǎn)生約100ZB的數(shù)據(jù)。
第二,AI對(duì)存儲(chǔ)的影響:數(shù)據(jù)生產(chǎn)與數(shù)據(jù)存儲(chǔ)是兩個(gè)過(guò)程,相比之前數(shù)據(jù)生成速度提升,存儲(chǔ)需求存在一定的滯后性。過(guò)去一年多企業(yè)的AI投資主要集中在算力、模型層面,接下來(lái),隨著數(shù)據(jù)的增長(zhǎng),存儲(chǔ)需求也將顯著提升。
第三,存儲(chǔ)介質(zhì)的選擇:隨著AI帶動(dòng)GPU和內(nèi)存價(jià)格上漲,固態(tài)硬盤(pán)和機(jī)械硬盤(pán)的單TB價(jià)格比正在增大。過(guò)去一年中,固態(tài)硬盤(pán)價(jià)格增速快于機(jī)械硬盤(pán)。除了AI訓(xùn)練需要的固態(tài)硬盤(pán),很多客戶還會(huì)選擇在性價(jià)比和總擁有成本(TCO)上更具優(yōu)勢(shì)的機(jī)械硬盤(pán)。
隨著生成式AI的快速崛起,存儲(chǔ)的角色變得愈發(fā)關(guān)鍵。希捷希望把握數(shù)據(jù)生產(chǎn)加速、AI對(duì)存儲(chǔ)需求的滯后性、存儲(chǔ)介質(zhì)選擇三大趨勢(shì),提供相應(yīng)的解決方案。
在大模型的訓(xùn)練過(guò)程中,存儲(chǔ)會(huì)參與到多個(gè)環(huán)節(jié)中。劉嘉認(rèn)為,機(jī)械硬盤(pán)也可以在這些環(huán)節(jié)提供相應(yīng)的支撐。
模型文件:在訓(xùn)練開(kāi)始時(shí),模型文件會(huì)直接存儲(chǔ)在GPU集群中,文件大小從幾百M(fèi)B到幾個(gè)TB不等。
checkpoint(檢查點(diǎn)):訓(xùn)練過(guò)程中會(huì)產(chǎn)生臨時(shí)保存的數(shù)據(jù)(checkpoint),最初很多企業(yè)使用性能較高的固態(tài)硬盤(pán)存儲(chǔ)這些數(shù)據(jù),同時(shí)成本也較高。現(xiàn)在企業(yè)發(fā)現(xiàn)可以將不常讀取的checkpoint數(shù)據(jù)轉(zhuǎn)移到機(jī)械硬盤(pán)降低成本。
模型版本:當(dāng)模型訓(xùn)練多個(gè)版本時(shí),會(huì)有不同版本的模型數(shù)據(jù)保存,由于存儲(chǔ)對(duì)性能要求較低,部分企業(yè)選擇使用機(jī)械硬盤(pán)。
生成數(shù)據(jù):通過(guò)文生圖片、視頻等生成的數(shù)據(jù)大概率會(huì)存儲(chǔ)在機(jī)械硬盤(pán)上,特別是在模型穩(wěn)定后,生成數(shù)據(jù)更加豐富且留存時(shí)間更長(zhǎng),進(jìn)一步優(yōu)化存儲(chǔ)成本可以使用機(jī)械硬盤(pán)。
存儲(chǔ)進(jìn)入大容量時(shí)代
希捷一直是機(jī)械硬盤(pán)巨頭,從2024年財(cái)報(bào)顯示,希捷實(shí)現(xiàn) 65.51 億美元營(yíng)收,其中毛利率為23.4%,較上一年度的18.3%有了明顯的提升,回歸盈利通道。
機(jī)械硬盤(pán)還會(huì)是希捷未來(lái)的主陣地,劉嘉認(rèn)為,企業(yè)90%的數(shù)據(jù)存儲(chǔ)在企業(yè)級(jí)硬盤(pán)和云端,服務(wù)好這部分市場(chǎng)非常關(guān)鍵。
同時(shí),希捷的另一個(gè)重點(diǎn)是持續(xù)提升容量、降低功耗,提高每TB的性能,以滿足生成式AI的需求。希捷還在積極評(píng)估與AI相關(guān)的新機(jī)會(huì),旨以適應(yīng)日益增長(zhǎng)的AI應(yīng)用和負(fù)載需求。
通過(guò)對(duì)市場(chǎng)需求的觀察,希捷將客戶分為三類(lèi):
優(yōu)化工作負(fù)載的客戶:這類(lèi)客戶看中機(jī)械硬盤(pán)的大容量和低成本優(yōu)勢(shì)。雖然機(jī)械硬盤(pán)在隨機(jī)讀寫(xiě)性能上和固態(tài)硬盤(pán)比相差10-20萬(wàn),但順序讀寫(xiě)上每秒能達(dá)到250M。基于這些特性在業(yè)務(wù)層將工作負(fù)載順序化,將順序讀寫(xiě)任務(wù)分配給機(jī)械硬盤(pán),隨機(jī)讀寫(xiě)任務(wù)則轉(zhuǎn)移到閃存上,降低了總擁有成本(TCO)。
停留在固定容量的客戶:有些客戶使用的機(jī)械硬盤(pán)容量停留在12TB左右,因更高容量的硬盤(pán)性能不理想,仍然選擇機(jī)械硬盤(pán),因?yàn)閮r(jià)格較低,且未來(lái)隨著磁密度的提升,這類(lèi)容量也可能有進(jìn)一步的改進(jìn)空間。
嘗試雙磁臂硬盤(pán)的客戶:采用雙磁臂硬盤(pán)技術(shù)在增加容量的同時(shí)可以保持單TB的性能不變,適用于對(duì)IO要求較高的業(yè)務(wù)場(chǎng)景,如塊存儲(chǔ)、郵件服務(wù)器。雙磁臂硬盤(pán)相比單磁臂硬盤(pán)價(jià)格略高,但性能提升顯著,是一種平衡成本與性能的選擇。
希捷已經(jīng)提供了包括銀河Exos系列大容量機(jī)械硬盤(pán)、希捷雷霆Nytro系列固態(tài)硬盤(pán),以及Mozaic 3+(魔彩盒3+)平臺(tái)等企業(yè)級(jí)數(shù)據(jù)存儲(chǔ)解決方案來(lái)滿足不同客戶的需求。其中Mozaic 3+(魔彩盒3+)帶來(lái)的30TB突破,單盤(pán)片容量達(dá)到了3TB,未來(lái)單碟容量還將達(dá)到4TB、5TB。
隨著存儲(chǔ)持續(xù)在AI領(lǐng)域發(fā)揮重要作用,更高的面密度和高容量也將成為決戰(zhàn)AI時(shí)代的關(guān)鍵。