Launch HN: Expanse (YC P26) – Unlock Wasted GPU Capacity
https://news.ycombinator.com/item?id=48356312📌 Expanse:讓 HPC/GPU 集群的實際利用率從 30% 飆升至 70%+
你是否曾見過一筆 GPU 作業因記憶體不足而在半途被殺死,卻又發現實際只用了不到一半的資源?Expanse 團隊發現,這種「過度請求」導致全球 HPC 與 AI 計算中心的平均利用率只剩 30%~40%,相當於每月浪費數百萬美元的運算力。
🤔 資源請求的兩難:過請求浪費,欠請求導致作業中斷
在 Kubernetes 或 SLURM 等排程系統上,使用者往往會把所需的 GPU、CPU、記憶體與執行時間請求得遠超實際需求。原因很簡單:若請求過低,作業可能在執行途中因 OOM 或超時被殺死,損失數天的計算;若請求過高,雖不會直接失敗,卻會佔用他人可用的資源,使整個集群的有效利用率被拉低。Expanse 的目標是在此兩極之間找到一個「安全且精準」的預測點。
🧪 從原始碼、提交腳本與硬體遙測中學習的深度學習模型
Expanse 安裝在每個計算節點上,並掛入 SLURM 或 K8s 的作業生命週期。它會同步讀取:
- 作業的原始碼與提交腳本(以理解資料流與運算模式)
- 即時硬體遙測(DCGM、CUPTI、Cgroups、網路/IO 監測)
- 集群元資料(硬體拓撲、目前負載等)
這些資訊被組合成一個專屬於該集群的 embedding,再饋送給經過該集群實際工作負載微調的深度學習模型。模型被訓練為「寧可過供亦不願不足」——因為作業因資源不足而失敗的成本遠高於多請求帶來的金錢浪費。同時,模型會輸出不確定度與 P90 值,讓使用者可依自己的風險容忍度調整安全裕度。
📊 實測:單一國家級 HPC 集群一個月浪費 59% 運算力,相當於 $8.5M
團隊在一個國家級 HPC 平台上連續監測一個月,共分析 122k 筆作業。結果顯示:
- 實際所需運算僅佔所請求的 41%
- 因此有 59% 的運算資源被白白浪費
- 按照同等硬體的雲端隨用隨付價格計算,這相當於約 850 萬美元 的單月損失
同樣的模式也在量化基金、AI 實驗室與製造業的大規模計算環境中被觀察到。
💡 為何通用 LLM 在此任務上表現不佳?Expanse 的關鍵差異
團隊將 Expanse 與當時的前沿通用模型(Gemini 3.5 Pro、Claude Opus 4.8、GPT 5.5、Codex 5.3)進行基準測試,使用相同的原始碼與提交腳本作為輸入。結果顯示 Expanse 的預測準確度優於這些模型約 8 倍。
原因在於:
- 通用 LLM 僅在純文字空間中推理,無法原生處理多模態輸入(原始碼+硬體遙測+集群拓撲)
- 它們缺乏對特定硬體效能特徵的感知,因而無法準確估計實際所需的 GPU VRAM、 utilisation 或 執行時間
- Expanse 的模型會隨著集群中新工作負載的持續運行而不斷微調,使其對硬體升級或工作負載型態變更具備適應性
🔧 三項對使用者可見的功能
- 提交時資源預測 – 預測所需的 GPU VRAM、 utilisation、記憶體、CPU 與 walltime,並提供置信區間;同時標記可能發生的 OOM 失敗與可於程式碼層面提升 utilisation 的最佳化建議。
- 即時可觀測性 – 在作業運行期間,透過低開銷的儀表板顯示正在收集的硬體遙測與代碼堆疊剖析,讓使用者直觀看到工作負載在硬體上的位置。
- 失敗診斷 – 若作業失敗,Expanse 會將收到的堆疊剖析與硬體遙測進行相關分析,產出一或兩行的解決導向日誌,不只說明「什麼時候失敗」,更說明「為什麼失敗」以及「如何以程式碼層面修復」。
⚠️ 目前已知的限制
- 模型需要在目標集群上運行足夠的工作負載才能達到穩定的預測品質(冷啟動期較不準確)。
- 現階段專注於 SLURM 與 Kubernetes 兩種排程器;其他自訂排程系統尚未整合。
- 失敗預測目前著重於記憶體相關問題(OOM、記憶體帶飽等),其他類型的硬體錯誤仍在擴充中。
🎯 對 HPC/AI 基礎設施管理者的實務建議
- 若您管理的集群規模達到 100+ GPU,且正在尋找提升實際利用率而不增加作業失敗風險的方法,Expanse 提供了可量化的「可回收容量」評估。
- 建議先申請兩週的免費測量窗口:團隊會在您的集群上安裝、收集資料並產出書面報告,說明可透過更精準的資源請求回收多少運算力與金錢。
- 報告完成後,可選擇以固定月費進入付費試點,之後依實際使用範圍續約或擴充。
🔗 相關連結
- 項目官網:https://expanse.sh/
- Hacker News 發文:https://news.ycombinator.com/item?id=48356312
- 模型基準評估(Twitter):https://x.com/ismaeel_bashir_/status/2059683849404383283
如果您曾嘗試過類似的資源預測方案但未達預期,或有其他希望被預測的失敗模式,歡迎在留言區分享您的經驗與建議——我們很樂意聽取真實的使用場景回饋,讓模型變得更好。
#Expanse #HPC #GPUCluster #Kubernetes #SLURM #資源預測 #YC #AIInfrastructure #雲端成本最佳化
由 tencent/hy3-preview:free 自動生成