當前位置：新聞 > 助力AI產(chǎn)業(yè)革新！浪潮信息重磅推出AIGC存儲解決方案

助力AI產(chǎn)業(yè)革新！浪潮信息重磅推出AIGC存儲解決方案

2024-07-03 09:31 來源：美通社作者：電源網(wǎng)

北京2024年7月2日 /美通社/ -- 6月28日，浪潮信息"元腦中國行"全國巡展杭州站順利舉行。會上，浪潮信息重磅推出基于新一代分布式存儲平臺AS13000G7的AIGC存儲解決方案。通過加持EPAI/AIStation的資源調度能力、新一代分布式存儲AS13000G7自身產(chǎn)品優(yōu)勢，新方案從容應對大模型應用對存儲性能、容量以及數(shù)據(jù)管理等方面的苛刻要求。同時，浪潮信息嘗試性提出GPU計算集群算力與存儲集群聚合帶寬的推薦配比，實現(xiàn)檢測點數(shù)據(jù)60秒內寫入和讀取恢復，提高大模型訓練效率。

大模型時代，數(shù)據(jù)基礎設施挑戰(zhàn)升級

隨著數(shù)字經(jīng)濟的蓬勃發(fā)展，AI技術正逐漸成為推動企業(yè)業(yè)務變革和創(chuàng)新的重要動力，大模型已經(jīng)成為驅動數(shù)字經(jīng)濟深度創(chuàng)新、引領企業(yè)業(yè)務變革、加速形成新質生產(chǎn)力的重要動能。

會上，存儲產(chǎn)品線副總經(jīng)理劉希猛表示，隨著大模型參數(shù)量和數(shù)據(jù)量的極速膨脹，多源異構數(shù)據(jù)的傳、用、管、存，正在成為制約生成式AI落地的瓶頸之一，在AI大模型數(shù)據(jù)歸集、訓練、數(shù)據(jù)歸檔與管理等階段，面臨著數(shù)據(jù)歸集時間長、模型訓練效率低、數(shù)據(jù)管理復雜度高等針對數(shù)據(jù)基礎設施的新挑戰(zhàn)，用戶亟需構建支持多協(xié)議、高帶寬、低延遲、數(shù)據(jù)高效流轉的大模型存儲底座。

作為率先在業(yè)界提出分布式融合存儲的廠商，浪潮信息聚焦行業(yè)客戶的大模型落地需求與核心痛點，打造基于NVMe SSD高效適配和優(yōu)化的分布式全閃存儲AS13000G7-N系列。依托自研分布式文件系統(tǒng)構建了新一代數(shù)據(jù)加速引擎DataTurbo，在緩存優(yōu)化、空間均衡、縮短GPU與存儲讀取路徑等方面進行了全面升級，提供TB級帶寬、千萬級IOPS、EB容量，滿足大模型存儲在性能和容量方面的要求。

劍指AIGC主戰(zhàn)場，打造面向大模型應用的存儲解決方案

在大模型數(shù)據(jù)處理全流程中，要想使訓練效率達到極致，減少不必要的資源浪費，算力和存力需要均衡配置，訓練階段的數(shù)據(jù)讀寫性能成為發(fā)揮存力最大作用的關鍵。而想要提升存儲效率、降低模型訓練成本，必須要在存儲技術上進行創(chuàng)新。對此，浪潮信息推出基于AS13000G7的AIGC存儲解決方案，該方案通過浪潮信息AIStation人工智能平臺進行智能資源調度和深度數(shù)據(jù)管理，與EPAI"元腦企智"平臺深度集成，數(shù)據(jù)在熱、溫、冷、冰四個存儲資源池中高效流動，最大限度滿足AIGC不同階段對高性能、易管理的存儲需求。首先，通過與上層EPAI/AIStation的深度定制，依托智能數(shù)據(jù)預讀和智能故障處理等技術，為行業(yè)用戶提供經(jīng)驗證的、更成熟的存儲整體方案，目前已累計服務AIGC用戶超100家，其中百PB級用戶超10家；其次，通過全局命名空間、多協(xié)議實時互通、數(shù)據(jù)冷熱分層等技術實現(xiàn)橫向數(shù)據(jù)自由流動，提升存儲效率和降低用戶TCO 20%以上，方案更加簡約；最后，通過AS13000G7-N系列強大的智能緩存優(yōu)化、智能空間均衡和GPU直通存儲等優(yōu)勢實現(xiàn)縱向數(shù)據(jù)高效訪問，縮短大模型訓練時間50%，方案更加高效。憑借成熟的深度定制能力、卓越的產(chǎn)品性能優(yōu)勢以及數(shù)據(jù)全生命周期管理能力，浪潮信息基于AS13000G7的AIGC存儲解決方案充分滿足大模型訓練階段高性能、歸檔階段低成本的存儲需求。

算存黃金比例，加速大模型訓練

倪光南院士曾提出，"對于AI智能計算中心來說，要想均衡配置存力、算力和運力，一定要注意比例相當，不能失調，才能取得最大的經(jīng)濟和社會效益。"為了最大限度發(fā)揮大模型潛能，解決存算比例不平衡的難題，需要制定最佳的存算比例，保障模型的高效訓練。浪潮信息最新發(fā)布的AIGC存儲解決方案嘗試給出了模型訓練時GPU算力與全閃存儲性能、容量的配置推薦。

性能方面：大模型訓練過程中檢測點文件讀寫對存儲系統(tǒng)讀寫性能帶來巨大挑戰(zhàn)。萬億模型需要12~13TB模型參數(shù)，寫檢測點需要耗費大量的時間，未經(jīng)優(yōu)化的存儲集群一次寫入檢測點需要3個小時?；趯Υ鎯鹤x寫帶寬與大模型檢測點恢復時間的分析，為提高大模型的訓練效率，實現(xiàn)檢測點數(shù)據(jù)60秒以內的寫入和讀取恢復，前端GPU計算集群算力（單位采用每秒千萬億次浮點預算PFLOPS）與存儲集群聚合帶寬（單位采用每秒千億字節(jié)也就是常說的TB/s）的推薦配比為35:1。當然，如果期望獲取更低的CHK寫入和恢復時間，可以繼續(xù)增加集群帶寬，但其收益率相對較低。

全閃容量方面：模型訓練場景中，除了初始加載的訓練數(shù)據(jù)集要存放在全閃池中，還有過程訓練中的CHK數(shù)據(jù)要保存。隨著萬卡時代的到來，當出現(xiàn)掉卡或訓練中止現(xiàn)象，用戶通常會每隔一段時間就保存一次Check point數(shù)據(jù)，可以用來恢復訓練或用于模型評估和推理。經(jīng)過一年多的實踐，建議大模型用戶2~4小時做一次Checkpoint，檢測點數(shù)據(jù)保存兩周時間，實現(xiàn)存儲集群容量的合理利用。通過模型分析，結合產(chǎn)品特點，便可推算出全閃熱存儲池的存儲配置要求。當然，用戶需求還會涉及到用于收集原始數(shù)據(jù)、準備原始數(shù)據(jù)的溫存儲池，用于歸檔的冷數(shù)據(jù)存儲池。這些溫冷池的容量一般在熱存儲池容量的10-20倍左右，達百PB級。

"元腦中國行"杭州站現(xiàn)場吸引了來自天目山實驗室、網(wǎng)易伏羲、英特爾等300余位專家學者、產(chǎn)業(yè)領袖、行業(yè)客戶，現(xiàn)場圍繞生成式人工智能、Al for Science、大模型的AIGC應用等行業(yè)熱點話題進行分享。浪潮信息還在會上舉行了"EPAI種子計劃"簽約儀式，名都科技、啟帆信息、圖靈軟件、天健遠見等浙江區(qū)域的10位元腦伙伴正式加入"EPAI種子計劃"，共同加速AI應用創(chuàng)新發(fā)展，推動大模型應用落地實踐。

AI 浪潮信息 AIGC 存儲解決方案

一周熱門

江波龍存儲出海

江波龍完成對巴西SMART Modular公司的股權收購，持有81%的股份，并更名為Zilia（智憶巴西）。為何江波龍做
低空飛行器與城市智慧立體交通國際學術會

9月6-7日，第二屆SAE 2024低空飛行器與城市智慧立體交通國際學術會議在杭州舉行，吸引了來自國內外低空飛行器、航空
大華股份鴻鵠智能物聯(lián)主機

作為全球首款采用全國產(chǎn)化硬件鴻蒙系統(tǒng)物聯(lián)主機，大華鴻鵠主機采用寬溫設計，雙板雙控，具備4000+海量協(xié)議和22Tops超

助力AI產(chǎn)業(yè)革新！浪潮信息重磅推出AIGC存儲解決方案

相關閱讀

一周熱門

助力AI產(chǎn)業(yè)革新！浪潮信息重磅推出AIGC存儲解決方案