2026-05-27 · MEMO: A Modular Framework for Training a Dedicated Memory Model on New Knowledge Without Modifying LLM Parameters

📌 【NUS·MIT·A*STAR 聯手】MEMO：不動 LLM 參數，單獨訓練記憶模型注入新知識

你是否曾經因為 LLM 知識凍結而頭痛？重新訓練整個模型成本高昂，fine‑tuning 又怕「遺忘」舊知識；RAG 雖靈活，但在需要跨文件推理時常常力不從心。一個全新的框架到底能怎樣解決這兩難？

🤔 知識更新與遺忘的兩難

現有把新知識融入 LLM 的方法大致分為三類：

非參數法（如 RAG）：推理時即時檢索，易受檢索噪聲影響，且在需要跨多文件推理時表現不佳。
參數法（持續預訓練或 supervised fine‑tuning）：將知識寫入模型權重，計算成本高，且會造成 catastrophic forgetting——新訓練會削弱之前學到的知識。
潛在記憶法：把知識壓縮成 soft token，但這些表示與產生它的模型緊密耦合（representation coupling），難以轉移到其他 LLM。

這些限制讓工程師在「想要即時知識」與「不想破壞既有能力」之間左右為難。

🧪 MEMO：記憶與推理的模組化分離

研究團隊提出 MEMO（Memory as a Model），核心思想是把記憶與推理拆開：

MEMORY model：一個小型、專用的語言模型，負責從目標語料庫內部學習新知識。在實驗中採用 Qwen2.5-14B-Instruct。
EXECUTIVE model：主 LLM，保持凍結，僅透過標準輸入輸出介面被查詢。實驗中使用 Qwen2.5-32B-Instruct 或 Gemini-3-Flash（閉源專有模型）。
因為 EXECUTIVE 被視為黑箱，MEMO 不需要存取其權重或 logits。

訓練過程由一個 GENERATOR model（Qwen2.5-32B-Instruct）引導的五步資料合成管線完成：

從原始文件庫抽取片段。
使用 GENERATOR 產生反思式問答對（question‑answer pairs）。
將問答對組成訓練資料。
訓練 MEMORY model 內化這些知識。
在推理時，EXECUTIVE 透過標準介面接收來自 MEMORY 的記憶提示，完成答案生成。

這樣的設計使得新知識得以「參數化」地存放在 MEMORY 中，而不會觸碰 EXECUTIVE 的權重，理論上避免了 catastrophic forgetting。

🔍 核心發現：可在不忘舊知識的前提下注入新知識

實驗顯示，當 EXECUTIVE 模型被凍結時，加入經 MEMO 訓練好的 MEMORY model 後，能夠正確回答針對新語料庫的問題，同時在原有基準測試上保持與未加入 MEMORY 時相近的表現。具體來說，MEMORY model 成功內化了目標語料庫的事實，並透過標準介面協助 EXECUTIVE 進行跨文件推理，而無需對 EXECUTIVE 進行任何參數更新。

💡 關鍵洞察：記憶與推理的解耦帶來模組化彈性

MEMO 的最大貢獻在於它提供了一種「即插即用」的知識更新方式：

組織可以獨立訓練或更新 MEMORY model，隨時納入最新文件、產品手冊或法規。
因為 EXECUTIVE 保持不變，既有的推理能力、工具鏈與部署流程皆無需改變。
此方法對於需要頻繁更新知識但又無法承受重訓練成本的企業場景（如客服、法律顧問、醫療諮詢）尤為實用。

⚠️ 研究限制：實驗規模與模型選擇

實驗僅在特定的模型組合（Qwen2.5 系列與 Gemini-3-Flash）上進行，不同架構的泛化性尚需進一步驗證。
五步資料合成管線依賴於 GENERATOR model 的質量，若生成的問答對含有偏誤或噪聲，可能影響 MEMORY 的學習效果。
目前尚未公開長期追蹤實驗，無法確認在多輪知識增量更新下，MEMORY model 是否會出現容量飽和或相互干擾的問題。

🎯 實務啟示：採用模組化記憶來應對知識快速迭代

若你的系統需要頻繁納入新文件（如產品更新、法規變更），可考慮先訓練一個小型的 MEMORY model，再把它當作外掛記憶模組接入既有的 LLM 服務。
在選擇 EXECUTIVE 时，只要保證其具備標準的文字輸入輸出介面，即可與 MEMO 相容，不必被特定廠商或模型綁定。
為降LOW GENERATOR 帶來的偏誤，建議在合成問答時加入人工審核或使用多樣化的提示策略。

🔗 論文與資訊來源
📄 MEMO: A Modular Framework for Training a Dedicated Memory Model on New Knowledge Without Modifying LLM Parameters
🔗 MarkTechPost 報導：https://www.marktechpost.com/2026/05/26/memo-a-modular-framework-for-training-a-dedicated-memory-model-on-new-knowledge-without-modifying-llm-parameters/
（文中所述機構：National University of Singapore, MIT CSAIL, A*STAR, Singapore-MIT Alliance for Research and Technology (SMART)）

你是否已經在專案中嘗試過類似的「記憶模組」做法？歡迎在留言區分享你的經驗或疑問 👇

#AI #LLM #KnowledgeIntegration #MEMO #NUS #MIT #AStar #SMART #機器學習 #自然語言處理

同來源相關文章