MarkTechPost ★ 106 5 min

MEMO: A Modular Framework for Training a Dedicated Memory Model on New Knowledge Without Modifying LLM Parameters

AI Paper SummaryLanguage ModelLarge Language ModelSoftware Engineering

🔗 https://www.marktechpost.com/2026/05/26/memo-a-modular-framework-for-training-a-dedicated-memory-model-on-new-knowledge-without-modifying-llm-parameters/

📌 【NUS·MIT·A*STAR 聯手】MEMO:不動 LLM 參數,單獨訓練記憶模型注入新知識

你是否曾經因為 LLM 知識凍結而頭痛?重新訓練整個模型成本高昂,fine‑tuning 又怕「遺忘」舊知識;RAG 雖靈活,但在需要跨文件推理時常常力不從心。一個全新的框架到底能怎樣解決這兩難?

🤔 知識更新與遺忘的兩難

現有把新知識融入 LLM 的方法大致分為三類:

  • 非參數法(如 RAG):推理時即時檢索,易受檢索噪聲影響,且在需要跨多文件推理時表現不佳。
  • 參數法(持續預訓練或 supervised fine‑tuning):將知識寫入模型權重,計算成本高,且會造成 catastrophic forgetting——新訓練會削弱之前學到的知識。
  • 潛在記憶法:把知識壓縮成 soft token,但這些表示與產生它的模型緊密耦合(representation coupling),難以轉移到其他 LLM。

這些限制讓工程師在「想要即時知識」與「不想破壞既有能力」之間左右為難。

🧪 MEMO:記憶與推理的模組化分離

研究團隊提出 MEMO(Memory as a Model),核心思想是把 記憶推理 拆開:

  • MEMORY model:一個小型、專用的語言模型,負責從目標語料庫內部學習新知識。在實驗中採用 Qwen2.5-14B-Instruct。
  • EXECUTIVE model:主 LLM,保持凍結,僅透過標準輸入輸出介面被查詢。實驗中使用 Qwen2.5-32B-Instruct 或 Gemini-3-Flash(閉源專有模型)。
  • 因為 EXECUTIVE 被視為黑箱,MEMO 不需要存取其權重或 logits。

訓練過程由一個 GENERATOR model(Qwen2.5-32B-Instruct)引導的五步資料合成管線完成:

  1. 從原始文件庫抽取片段。
  2. 使用 GENERATOR 產生反思式問答對(question‑answer pairs)。
  3. 將問答對組成訓練資料。
  4. 訓練 MEMORY model 內化這些知識。
  5. 在推理時,EXECUTIVE 透過標準介面接收來自 MEMORY 的記憶提示,完成答案生成。

這樣的設計使得新知識得以「參數化」地存放在 MEMORY 中,而不會觸碰 EXECUTIVE 的權重,理論上避免了 catastrophic forgetting。

🔍 核心發現:可在不忘舊知識的前提下注入新知識

實驗顯示,當 EXECUTIVE 模型被凍結時,加入經 MEMO 訓練好的 MEMORY model 後,能夠正確回答針對新語料庫的問題,同時在原有基準測試上保持與未加入 MEMORY 時相近的表現。具體來說,MEMORY model 成功內化了目標語料庫的事實,並透過標準介面協助 EXECUTIVE 進行跨文件推理,而無需對 EXECUTIVE 進行任何參數更新。

💡 關鍵洞察:記憶與推理的解耦帶來模組化彈性

MEMO 的最大貢獻在於它提供了一種「即插即用」的知識更新方式:

  • 組織可以獨立訓練或更新 MEMORY model,隨時納入最新文件、產品手冊或法規。
  • 因為 EXECUTIVE 保持不變,既有的推理能力、工具鏈與部署流程皆無需改變。
  • 此方法對於需要頻繁更新知識但又無法承受重訓練成本的企業場景(如客服、法律顧問、醫療諮詢)尤為實用。

⚠️ 研究限制:實驗規模與模型選擇

  • 實驗僅在特定的模型組合(Qwen2.5 系列與 Gemini-3-Flash)上進行,不同架構的泛化性尚需進一步驗證。
  • 五步資料合成管線依賴於 GENERATOR model 的質量,若生成的問答對含有偏誤或噪聲,可能影響 MEMORY 的學習效果。
  • 目前尚未公開長期追蹤實驗,無法確認在多輪知識增量更新下,MEMORY model 是否會出現容量飽和或相互干擾的問題。

🎯 實務啟示:採用模組化記憶來應對知識快速迭代

  • 若你的系統需要頻繁納入新文件(如產品更新、法規變更),可考慮先訓練一個小型的 MEMORY model,再把它當作外掛記憶模組接入既有的 LLM 服務。
  • 在選擇 EXECUTIVE 时,只要保證其具備標準的文字輸入輸出介面,即可與 MEMO 相容,不必被特定廠商或模型綁定。
  • 為降LOW GENERATOR 帶來的偏誤,建議在合成問答時加入人工審核或使用多樣化的提示策略。

🔗 論文與資訊來源
📄 MEMO: A Modular Framework for Training a Dedicated Memory Model on New Knowledge Without Modifying LLM Parameters
🔗 MarkTechPost 報導:https://www.marktechpost.com/2026/05/26/memo-a-modular-framework-for-training-a-dedicated-memory-model-on-new-knowledge-without-modifying-llm-parameters/
(文中所述機構:National University of Singapore, MIT CSAIL, A*STAR, Singapore-MIT Alliance for Research and Technology (SMART))

你是否已經在專案中嘗試過類似的「記憶模組」做法?歡迎在留言區分享你的經驗或疑問 👇

#AI #LLM #KnowledgeIntegration #MEMO #NUS #MIT #AStar #SMART #機器學習 #自然語言處理

tencent/hy3-preview:free 自動生成