騰訊(鵝廠)正式發(fā)布了其新一代高性能計(jì)算集群,并宣布該集群能夠在最快4天內(nèi)完成萬(wàn)億參數(shù)級(jí)別大模型的訓(xùn)練任務(wù),標(biāo)志著國(guó)產(chǎn)AI算力基礎(chǔ)設(shè)施邁入新的里程碑。該集群不僅聚焦于極致算力,更在數(shù)據(jù)處理與存儲(chǔ)支持服務(wù)上實(shí)現(xiàn)了全方位升級(jí),為大規(guī)模AI研發(fā)與應(yīng)用提供了堅(jiān)實(shí)可靠的底層支撐。
這一算力集群的核心突破在于其超強(qiáng)的并行計(jì)算能力與優(yōu)化后的軟硬件協(xié)同架構(gòu)。通過(guò)自研的AI加速芯片、高速互聯(lián)網(wǎng)絡(luò)以及分布式訓(xùn)練框架的深度整合,集群有效克服了萬(wàn)卡級(jí)規(guī)模下的通信瓶頸與負(fù)載均衡難題,從而將訓(xùn)練萬(wàn)億參數(shù)大模型的時(shí)間縮短至數(shù)天級(jí)別。這一效率的提升,極大加速了模型迭代與創(chuàng)新的周期,使得研發(fā)團(tuán)隊(duì)能夠更快速地將前沿AI技術(shù)轉(zhuǎn)化為實(shí)際應(yīng)用。
在數(shù)據(jù)處理層面,鵝廠針對(duì)大模型訓(xùn)練中海量、多源、非結(jié)構(gòu)化數(shù)據(jù)處理的痛點(diǎn),構(gòu)建了一體化的數(shù)據(jù)處理流水線。該服務(wù)提供了從數(shù)據(jù)采集、清洗、標(biāo)注到增強(qiáng)的全流程工具鏈,并內(nèi)置了強(qiáng)大的隱私計(jì)算與合規(guī)檢測(cè)機(jī)制,確保數(shù)據(jù)在使用過(guò)程中的安全性與合法性。平臺(tái)支持對(duì)萬(wàn)億token級(jí)別的文本、圖像等多模態(tài)數(shù)據(jù)進(jìn)行高效預(yù)處理,為模型喂養(yǎng)高質(zhì)量“數(shù)據(jù)燃料”。
存儲(chǔ)支持服務(wù)是本次發(fā)布的另一大亮點(diǎn)。面對(duì)訓(xùn)練過(guò)程中產(chǎn)生的中間狀態(tài)、檢查點(diǎn)及海量參數(shù)帶來(lái)的存儲(chǔ)挑戰(zhàn),集群配備了高吞吐、低延遲的分布式存儲(chǔ)系統(tǒng)。該系統(tǒng)采用分級(jí)存儲(chǔ)策略,將熱數(shù)據(jù)、溫?cái)?shù)據(jù)、冷數(shù)據(jù)智能分層,并利用糾刪碼等技術(shù)提升可靠性與存儲(chǔ)效率。服務(wù)提供了快照、容災(zāi)備份與無(wú)縫擴(kuò)展能力,確保長(zhǎng)時(shí)間、大規(guī)模訓(xùn)練任務(wù)的穩(wěn)定運(yùn)行與數(shù)據(jù)安全。
鵝廠此次發(fā)布的算力集群及配套服務(wù),不僅是其“AI+云”戰(zhàn)略的重要落地,也為行業(yè)提供了從算力、數(shù)據(jù)到存儲(chǔ)的端到端大模型解決方案。它有望降低AI研發(fā)的門(mén)檻與成本,推動(dòng)科研機(jī)構(gòu)與企業(yè)更專注于模型算法與場(chǎng)景創(chuàng)新,進(jìn)而加速千行百業(yè)的智能化轉(zhuǎn)型。隨著技術(shù)的持續(xù)迭代與生態(tài)的完善,國(guó)產(chǎn)算力基礎(chǔ)設(shè)施將在全球AI競(jìng)爭(zhēng)中扮演愈發(fā)關(guān)鍵的角色。