【導(dǎo)讀】對(duì)于在 2026 年管理EB級(jí)基礎(chǔ)設(shè)施的數(shù)據(jù)中心運(yùn)營(yíng)商而言,關(guān)鍵問(wèn)題已不再僅僅是是否擁有備份,而是存儲(chǔ)基礎(chǔ)設(shè)施能否提供符合實(shí)際運(yùn)營(yíng)需求的數(shù)據(jù)韌性:包括在線(xiàn)業(yè)務(wù)所需的高可用性、跨故障域的數(shù)據(jù)持久性,以及抵御攻擊所需的不可變歸檔能力。
設(shè)施規(guī)劃中的乘數(shù)效應(yīng)
云服務(wù)提供商通過(guò)糾刪碼、異地冗余和自動(dòng)分層等多重保護(hù)機(jī)制,承諾提供 11 個(gè) 9(99.999999999%)的數(shù)據(jù)持久性。但現(xiàn)實(shí)的經(jīng)濟(jì)邏輯是:當(dāng)數(shù)據(jù)在三個(gè)可用區(qū)之間進(jìn)行地理冗余時(shí),根據(jù)復(fù)制和糾刪碼方案的不同,備份和副本數(shù)據(jù)量可能會(huì)達(dá)到原始存儲(chǔ)占用的 2 到 3 倍。這一“乘數(shù)效應(yīng)”不僅作用于數(shù)據(jù)容量,還會(huì)同步放大以下成本維度,包括:機(jī)架空間、電力消耗、散熱需求和持續(xù)運(yùn)營(yíng)成本。
在當(dāng)前云數(shù)據(jù)中,絕大多數(shù)仍存儲(chǔ)在硬盤(pán)(HDD)上,因此每TB功耗、組件壽命以及故障帶來(lái)的運(yùn)營(yíng)成本,已成為影響數(shù)據(jù)中心能效(PUE)和單機(jī)架成本的核心變量。
組件故障的隱藏成本
傳統(tǒng)數(shù)據(jù)中心財(cái)務(wù)模型通常將數(shù)據(jù)持久性基礎(chǔ)設(shè)施視為線(xiàn)性乘數(shù),但這忽略了在總體擁有成本(TCO)中占據(jù)主導(dǎo)地位的運(yùn)營(yíng)成本。例如:在部署一百萬(wàn)個(gè)存儲(chǔ)組件、且年故障率為1%的場(chǎng)景下,運(yùn)營(yíng)人員平均每天面臨約 27 次組件故障,并需要執(zhí)行重建操作。每次重建都會(huì)帶來(lái)連鎖影響:持續(xù)讀取壓力作用于相鄰設(shè)備,從而功耗增加、散熱負(fù)荷加劇、網(wǎng)絡(luò)帶寬被占用,觸發(fā)級(jí)聯(lián)故障的風(fēng)險(xiǎn)。
組件可靠性直接決定了重建頻率。若年故障率分別為 0.5% 和 1.5%,則每日重建操作的頻率將產(chǎn)生三倍的差異。這不僅會(huì)導(dǎo)致可量化的能耗波動(dòng)和制冷負(fù)荷變化(因多個(gè)機(jī)架同時(shí)處于高利用率狀態(tài)所致),還會(huì)引發(fā)網(wǎng)絡(luò)擁塞,并占用技術(shù)人員用于組件更換的時(shí)間。
勒索軟件推動(dòng)“不可變歸檔”成為剛需
如今,勒索軟件攻擊者已將目標(biāo)轉(zhuǎn)向生產(chǎn)存儲(chǔ)系統(tǒng),甚至包括那些旨在確保可用性的冗余機(jī)制。這一嚴(yán)峻現(xiàn)實(shí),使數(shù)據(jù)韌性策略——特別是日益與在線(xiàn)系統(tǒng)隔離或物理隔離的不可變歸檔存儲(chǔ)——從合規(guī)性要求提升為不可或缺的運(yùn)營(yíng)剛需。在線(xiàn)存儲(chǔ)側(cè)重于業(yè)務(wù)負(fù)載的可用性和持久性,而不可變歸檔則提供了抵御攻擊所需的額外保護(hù)層。
這也帶來(lái)了新的基礎(chǔ)設(shè)施挑戰(zhàn):可能閑置數(shù)月的歸檔存儲(chǔ)基礎(chǔ)設(shè)施,在生產(chǎn)系統(tǒng)受損的恢復(fù)場(chǎng)景下,必須瞬間提供持續(xù)的高強(qiáng)度讀取性能。設(shè)施管理人員必須為歸檔系統(tǒng)配置足夠的電力、散熱和網(wǎng)絡(luò)容量,以應(yīng)對(duì)可能持續(xù)數(shù)周的多 PB 級(jí)數(shù)據(jù)恢復(fù)操作所帶來(lái)的極限吞吐量壓力。在數(shù)據(jù)恢復(fù)期間,單一存儲(chǔ)組件的故障會(huì)對(duì)相鄰組件造成級(jí)聯(lián)壓力,進(jìn)而產(chǎn)生局部熱點(diǎn),這不僅會(huì)增加散熱系統(tǒng)的負(fù)荷,還會(huì)提高相鄰機(jī)架發(fā)生熱致故障的風(fēng)險(xiǎn)。
AI 工作負(fù)載加劇規(guī)劃的復(fù)雜性
AI 訓(xùn)練負(fù)載引入了具有獨(dú)特基礎(chǔ)設(shè)施需求的關(guān)鍵歸檔數(shù)據(jù)資產(chǎn)。傳統(tǒng)數(shù)據(jù)在歸檔層中通常處于冷數(shù)據(jù)狀態(tài),而與之不同的是,AI 訓(xùn)練數(shù)據(jù)集面臨著定期的驗(yàn)證讀取和周期性的重訓(xùn)練循環(huán),從而產(chǎn)生了持續(xù)的工作負(fù)載模式,并對(duì)以下方面造成影響:
電力規(guī)劃: 歸檔系統(tǒng)從閑置切換到極限讀取狀態(tài)會(huì)產(chǎn)生功耗波動(dòng),進(jìn)而影響容量規(guī)劃和UPS(不間斷電源)的容量選型。
散熱需求: 帶有版本控制的 AI 存儲(chǔ)庫(kù)會(huì)經(jīng)歷高頻讀取的訪(fǎng)問(wèn)模式,產(chǎn)生持續(xù)的熱負(fù)荷
網(wǎng)絡(luò)架構(gòu): 遷移 PB 級(jí)的 AI 檢查點(diǎn)會(huì)產(chǎn)生東西向流量,這與傳統(tǒng)的南北向流量模式截然不同
預(yù)計(jì)到 2027 年,每年將新增 130–140 個(gè)超大規(guī)模數(shù)據(jù)中心,且用于支持 AI 能力的基礎(chǔ)設(shè)施支出將高達(dá)數(shù)千億美元。因此,在規(guī)劃備份基礎(chǔ)設(shè)施時(shí),充分考量在極端情況下確保快速恢復(fù)所需的系統(tǒng)電力、散熱和網(wǎng)絡(luò)影響,顯得至關(guān)重要。
數(shù)據(jù)中心運(yùn)營(yíng)者應(yīng)關(guān)注的關(guān)鍵問(wèn)題
數(shù)據(jù)中心運(yùn)營(yíng)商應(yīng)審查其存儲(chǔ)基礎(chǔ)設(shè)施是否與運(yùn)維實(shí)際相符:
電力與熱量的可預(yù)測(cè)性: 存儲(chǔ)組件在整個(gè)生命周期內(nèi)是否保持穩(wěn)定的功耗區(qū)間?
持續(xù)性能: 歸檔系統(tǒng)在閑置數(shù)月后,能否在不產(chǎn)生散熱問(wèn)題的情況下提供額定吞吐量?
故障模式的可預(yù)測(cè)性: 組件是否能夠以可控方式退化,并提供明確的故障指示,還是會(huì)增加故障排查的復(fù)雜度?
密度優(yōu)化: 電力和散熱系統(tǒng)的容量配置,是否足以應(yīng)對(duì)所有存儲(chǔ)層在極端情況下的同時(shí)利用率?
組件級(jí)可靠性將直接影響設(shè)施的經(jīng)濟(jì)效益:減少上門(mén)維修和運(yùn)維人工成本、通過(guò)可預(yù)測(cè)的功耗簡(jiǎn)化容量規(guī)劃、延長(zhǎng)更新周期以減少破壞性的設(shè)備更替,以及在采用新一代技術(shù)時(shí)簡(jiǎn)化驗(yàn)證流程。
核心要旨
對(duì)于數(shù)據(jù)中心運(yùn)營(yíng)商來(lái)說(shuō),核心問(wèn)題不在于是否有備份,而在于設(shè)施基礎(chǔ)設(shè)施能否支撐其SLA(服務(wù)等級(jí)協(xié)議)所承諾的數(shù)據(jù)韌性:在維持在線(xiàn)工作負(fù)載正常運(yùn)行時(shí)間的同時(shí),確保不可變歸檔能力有助于抵御攻擊。電力與散熱系統(tǒng)能否在數(shù)據(jù)恢復(fù)場(chǎng)景中,支撐存儲(chǔ)基礎(chǔ)設(shè)施在極限利用率下連續(xù)運(yùn)行數(shù)周的壓力?
在當(dāng)今時(shí)代,AI 的開(kāi)發(fā)進(jìn)度和客戶(hù)留存率均依賴(lài)于跨層的存儲(chǔ)基礎(chǔ)設(shè)施性能,而組件級(jí)的可靠性則是一個(gè)影響數(shù)據(jù)中心經(jīng)濟(jì)效益方方面面的設(shè)施規(guī)劃變量——從電力合同到散熱系統(tǒng)選型,再到人工成本,無(wú)一例外。
作者:Stefan Mandl,西部數(shù)據(jù)全球銷(xiāo)售與市場(chǎng)營(yíng)銷(xiāo)副總裁






