在當今 AI 技術快速發展的時代,青云科技一直走在前列,致力于為各行業提供強大的智算產品與服務。近日,在青云科技 AI 算力發布會上,青云智算產品經理苗慧女士以“打破計算邊界,重塑 AI 時代”,詳細介紹了青云 AI 算力產品與服務的全新升級,展示了青云科技在 AI 領域的深厚積累與卓越創新。
以下為青云科技智算產品經理苗慧的分享,經整理。
三大核心產品,引領無界算力新時代
面對各行各業對 AI 的迫切需求,青云更是拿出了看家本領。其快速構建 AI 計算場景的能力,讓算法工程師、計算科學家、數據科學家等研究人員能夠專注于算法和數學的研發,而無需為底層 AI 基礎設施分心。通過屏蔽底層技術的復雜性,青云極大地提高了研發效率,讓科研成果能夠更快地轉化為實際應用。
新產品,更全面
青云科技推出的三大核心產品:AI 智算平臺、AI 算力云服務和 AI 智算一體機,以強大的技術實力突破傳統算力界限,實現無界算力。
● AI 智算平臺:大而全的軟件平臺,從底層設備管理到上層 AI 算法優化,無所不能。它實現了對所有計算卡的高效管理,解決了客戶在多區域、多計算卡、多產品形式下的算力管理難題。通過統一算力調度管理集群,青云確保了算力的充分利用和高效調度。
● AI 算力云服務:以 GPU 算力為主的在線服務平臺,用戶可以隨時隨地獲取所需的算力資源。無論是大型科研機構還是中小型研發團隊,都可以通過 AI 算力云服務快速構建 AI 計算環境,推動科研成果的快速轉化和 AI 場景快速落地。目前,已經上線了位于西北、華北等地的專區,為用戶提供便捷、高效的算力服務。
● AI 智算一體機:專為中小型研發團隊和傳統企業設計的快速創新工具,開箱即用。一體機內置了常用的模型和算法,用戶只需通電即可使用,無需擔心底層技術的復雜性。通過 AI 智算一體機,用戶可以更快地開展 AI 研發和創新嘗試,加速科研成果的落地應用。

多形式,提升資源利用效率
值得一提的是,青云在交付形式上也進行了大量創新,不僅能完成私有化交付、提供算力云服務和算力專屬云,還能構建分布式云,將多個地區的算力中心統一管理、運營和運維,極大提高了資源利用效率。同時,針對邊緣算力的需求,青云也提供邊緣計算能力。

專業技術團隊,提供全方位服務
除了強大的產品能力和交付能力外,青云還擁有專業的技術專家團隊,為客戶提供咨詢服務、規劃、可行性分析、架構設計及 7×24 小時的技術支持。無論是在產品更新、計算產品升級、AI 數據平臺優化、高性能網絡服務提升等方面,青云都能夠憑借豐富的經驗和先進的技術,為客戶提供全方位的服務。
青云通過三大算力產品、靈活交付和專業服務,實現了云、網、邊、端的無縫融合與高效協同。強大的組網與橫向擴展能力,不僅覆蓋了企業數據中心、邊緣節點及跨區域場景,更打破了傳統算力的物理與邏輯界限。青云開放的架構,讓 AI 能力得以自由流動與深度融合。無論是向上對接多元化的 AI 技術,還是向下兼容多樣化的硬件生態,青云智算均能實現無縫集成,構建了一個靈活、可擴展的 AI 無界算力世界。
AI 智算平臺超進化,效率革新
青云科技于去年 9 月份發布了 AI 智算平臺 1.0,以全新容器架構提供了從底層算力基礎設施調度管理到業務運營的功能。在過去一年中,又陸續推出多個產品及功能,解決客戶實際問題,展現了強大的算力管理和調度能力。從大型的數據中心卡,到消費級 RTX 顯卡,再到國產的海光和昇騰系列計算卡,青云都能夠進行高效的管理和調度。此外,面對不同網絡帶寬的需求,青云也能夠提供 200M、400M、800M 乃至上 T 的網絡帶寬性能,確保數據的暢通無阻。

青云深知,僅有強大的算力是不夠的。在 AI 基礎設施的建設過程中,計算卡的應用、性能和調優同樣至關重要。因此,青云通過統一算力調度管理集群,實現了對所有計算卡的高效管理,解決了客戶在多區域、多計算卡、多產品形式下的算力管理難題。
青云 AI 智算平臺通過不斷更新功能和優化架構,滿足了用戶在計算、數據和網絡管理等方面的需求。這使得用戶能夠更加高效地利用計算資源,降低成本,提高生產效率,從而在 AI 領域取得更好的發展。無論是企業還是科研機構,都能從青云 AI 智算平臺的優勢中受益,加快自身在 AI 領域的創新和進步。

升級更多計算產品
AI 智算平臺提供多元化的計算形式,從傳統物理機到容器,再到裸金屬。計算不僅支持國外主流算力,還支持海光、昇騰等國產算力。同時,推出傳統 HPC CPU 計算,面向 300 多個傳統 HPC 場景提供 HPC 計算。
苗慧表示,計算產品升級主要體現在 GPU 切分能力的完善和提升上。金融和高校都存在高峰和低谷的業務特點,在高峰時需要大量資源支持,而在低谷時則只需保活即可。青云提供了算力芯片的切分使用,例如,通過將 GPU 切分二分之一,可以提高一倍的效率,同時減少一臺機器的投入??蛻艨梢酝ㄟ^這種 GPU 切分方式提高工作效率,降低投入成本,更好地滿足業務需求。

AI 數據平臺,便捷高效的數據服務
青云 AI 數據平臺作為統一的數據存儲流轉管理服務平臺,以其完全服務化的特性,為用戶提供了便捷、高效的持久化數據服務。平臺具有強大的屏蔽功能,能夠將底層介質(如硬機械硬盤、NVMe 閃盤)以及不同文件系統等基礎設施帶來的問題完全屏蔽。這使得用戶無需關注底層技術細節,專注于數據的處理和應用。
平臺完全服務化,可視化交互體驗,用戶可在界面上輕松點擊申請配額,隨后即可通過界面上傳、下載數據。數據與計算環境緊密關聯,用戶在進入平臺后,首先創建存儲,上傳數據,完成這些操作后即可獲得相關計算資源,進行數據處理和管理。這種簡潔明了的操作流程,極大提高了用戶使用數據的效率。

高性能網絡服務,快速上架穩定運行
青云科技憑借資深網絡團隊和專業技術積累,在相同硬件條件下,為用戶提供更優質的高性能網絡,保障網絡穩定。
青云資深網絡團隊,根據業務需求進行全面的網絡規劃與設計。從硬件配置到網絡架構,每一個環節都經過精心考量,確保網絡服務能夠滿足不同業務場景的需求。青云在網絡服務方面遵循嚴格的流程,千卡集群 7 天即可完成調試和 15 天上架運營,確保網絡服務在投入使用前經過充分的測試和優化,為用戶提供穩定可靠的網絡環境。

全功能 AI 開發平臺,滿足開發訓練需求
青云還推出全功能 AI 開發平臺,涵蓋開發機服務和分布式訓練服務。
● 開發機服務:提供秒級創建、鏡像加速、自定義鏡像等功能,還支持無卡開關機、在線開發 jupyter、vscode,以及定時關機、定時釋放等資源回收策略。這些功能使得開發人員能夠更加方便快捷地進行開發工作,提高開發效率。
● 分布式訓練服務:提供秒級調度多機多卡、預訓練 DLC、模型精調 SFT,以及優先級與批量調度策略等功能。同時,還內置了評估數據集、效率表現分析等,對模型效果進行評估。這些功能使得分布式訓練更加高效,提高了訓練效率和模型質量。

模型服務平臺,加速 AI 創新
青云 AI 智算平臺還推出即用即付、開箱即用的模型服務平臺,具備多項優勢以滿足不同需求。
集成與調度
● 具有強大的集成能力,通過模型廣場,實現模型和應用無縫集成,提升應用性能。
● 采用靈活的潮汐調度策略,結合 GPU 池化,有效提升推理并發效率,同時支持國產卡和邊緣設備,擴大適用范圍。
環境適配與管理
● 在算法環境方面,通過容器鏡像打包環境功能,無論用戶所需的 CUDA 版本如何,都能獲取相應鏡像運行,解決了運維過程中因版本差異導致的問題。
● 對于不同算法團隊的計算環境準備需求,提供模型服務平臺,可快速搭建環境,避免物理問題?!?針對機器利用率低的問題,監控平臺可全面監控,不僅能看到機器歸屬及平均利用率,還能根據純時間類指標和監控數據實現自動關機、自動釋放計算卡,提高資源使用效率,避免算法團隊搶卡。
資源調配與應用
● 開發、訓練和推理服務通常由不同人員負責,針對模型調用量存在高峰和低谷的情況,將所有模型部署到推理集群上,根據調用和壓力進行資源彈性伸縮,合理分配資源。
● 通過 GPU 切分形式,如將 80G 顯存切成 20G 4 份向外分發,可實現白天推理晚上訓練。通過自動資源池調配滿足不同時段需求,如金融領域的 “白天推理,晚上訓練” 模式,保存模型 CheckPoint,提高資源利用率。

青云科技借助自身的平臺和工具,為企業提供了無門檻構建 AI 模型的服務。在 AI 智算平臺上,所有功能都圍繞算力應用,使其能落實到具體場景和算法工程師手中。
企業只需將數據上傳到平臺,即可啟動一鍵精調。在這個過程中,平臺能夠對每個保存的模型或 CheckPoint 立即進行模型效果評估。平臺內置常用數據集和常用參數,完全屏蔽了對技術人員的底層技術要求。技術人員只需在平臺上進行簡單操作,就能得到模型與結果評估,判斷其是否適用。如果適用,便可進行部署、推理,并預留接口。
在資源管理方面,對于推理占用資源,既可以獨占,也可以共享。青云按照 token 形式進行彈性計費或彈性擴/縮容,滿足企業不同的資源需求和成本控制要求。

故障監控與自愈系統,保障算力穩定
苗慧在發布會上指出,青云在過去管理了萬卡集群、10000P+ 算力,不論是英偉達還是國產 GPU 服務器,損壞率是不可避免的。設備在運行過程中,由于長時間工作和物理特性(如松動、晃動),可能會出現故障。為了確保算力的穩定可靠運行,青云 AI 智算平臺還推出了故障監控與自愈系統。該系統擁有 1000+ 故障特征庫,能夠秒級發現故障并分鐘級自愈。
一旦平臺檢測到故障,會立即通過多渠道(如企業微信)發出告警。隨后,系統會自動啟動任務檢測和調度禁止機制,防止新任務在故障機器上運行。對于正在運行的任務,系統會檢查其健康狀態,并根據情況決定是否繼續在當前機器上運行或轉移到其他正常機器上。在資源充足的情況下,系統會預留部分機器作為備份,以便在故障發生時迅速接管任務,保證任務連續性,從而提高工作效率。
用戶可以放心地使用算力資源開展研發和創新工作,而無需擔心故障帶來的損失和影響。目前,青云科技的故障自愈率已經達到 99%,為用戶提供了更加可靠、高效的算力支持。

運營計量與計費系統,靈活運營與管理
為了滿足不同用戶的需求和預算限制,青云 AI 智算平臺還推出了運營計量與計費系統。傳統的算力中心在資源購買和配置過程中,涉及到諸多繁瑣步驟,如配置資源、網絡、公網服務、確定計費模式、簽訂合同等。青云通過自動化手段將這些步驟大大簡化,降低了用戶的工作負擔。
該系統提供了全量運營計費計量功能,實現了租戶隔離和靈活定價。用戶可以根據自己的需求和預算選擇合適的算力資源和服務,并按照實際使用情況進行計費。
系統還充分考慮了用戶在使用過程中可能遇到的各種情況,如重建環境、臨時停用等。針對這些情況,系統提供了相應的彈性計費策略,確保用戶不會因為這些臨時變化而承擔不必要的費用。

AI 算力云,低門檻普惠 AI 應用
青云推出的公有云 AI 算力云服務,目前在西北 1 區、西北 2 區、華北 2 區等區域運行,提供英偉達 H 系列、A 系列、RTX 系列、海光和昇騰相關的算力資源,以及模型服務。用戶可以方便地進行在線申請和使用,無論是簡單的計算任務還是復雜的在線分布式任務,都能得到滿足。資源按需計費,簡單明了,用戶可以根據自己的任務需求和預算進行合理安排。

除了算力服務,該產品還提供各種存儲的申請和使用,為用戶提供便捷、高效的一站式服務,進一步滿足了用戶在數據存儲方面的需求。
AI 智算一體機,開箱即用
AI 智算一體機主要面向傳統企業和中小型開發團隊,旨在幫助他們快速進行創新嘗試。對于那些沒有時間和精力去深入學習 AI 基礎知識的用戶來說,這款一體機是一個理想的選擇。它無需用戶長時間學習相關知識,通電即用。一體機內置了市場上常用的模型、算法和計算庫,并不斷更新,確保用戶能夠使用到最新、最實用的工具。用戶在使用過程中,隨時可以調整,甚至可以將其搬到某個區域繼續使用,體現了其高度的靈活性。

這種開箱即用的特性,使得企業能夠在短時間內體驗到 AI 技術帶來的便利和優勢。通過不斷創新和升級產品以及提升服務質量和技術水平,青云科技將為用戶帶來更加便捷、高效、可靠的算力支持和服務。
未來,隨著 AI 技術的不斷發展和應用領域的不斷拓展,青云科技將繼續保持其領先地位,推動 AI 技術的普及發展,為更多行業和領域注入新的活力和動力!