GitHub Trending Stanford ★ 114 3 min

stanford-oval/storm

Python

🔗 https://github.com/stanford-oval/storm

📌 【Stanford 開源】STORM:透過多視角提問與檢索,自動生成深度知識大綱

TL;DR:一個能自動擬定主題大綱、檢索資訊並生成文章的知識策展框架,現已支援人機協作。

當我們需要針對一個陌生主題撰寫深度報告時,最困難的往往不是寫作,而是「如何定義問題」以及「從哪些視角切入」才能涵蓋所有關鍵知識。Stanford 的 STORM 專案正是為了解決這個問題而設計。

🤔 從「多視角提問」到知識合成

STORM 的核心邏輯在於 Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking。它不單純是將問題丟給 LLM,而是透過「多視角提問」來探索主題,並結合檢索機制來合成結構化的知識大綱。

🧩 模組化設計與擴展能力

根據 GitHub 專案更新紀錄,STORM 的實作具備高度的靈活性:

  • 檢索機制 (Retrieval):除了支援 Bing Search 等搜尋引擎,最新版本加入了 VectorRM,允許使用者提供自定義文件進行 grounding(基於事實的生成)。
  • 模型整合:近期 v1.1.0 版本整合了 litellm,讓開發者能更方便地切換不同的語言模型與 embedding 模型。
  • ** pipeline 實作**:專案定義了清晰的 pipeline 介面,並透過 storm_wiki 示範如何實作一套完整的知識生成流程。

🤝 從單機生成演進至人機協作 (Co-STORM)

STORM 不僅能自動化生成,其最新演進 Co-STORM (Collaborative STORM) 引入了人機協作機制,讓人類能參與到知識策展(knowledge curation)的過程中。該研究成果已獲 EMNLP 2024 主會接收。

🎯 實務啟示

對於需要建立知識庫或自動化生成長篇研究報告的工程師來說,STORM 提供了一個可參考的實作路徑:

  1. 不要直接生成內容:先透過多視角提問建立大綱 $\rightarrow$ 檢索補充事實 $\rightarrow$ 最後才合成文章。
  2. 混合檢索路徑:結合搜尋引擎(如 Bing)與自有文件(VectorRM),能兼顧廣度與深度。
  3. 快速部署原型:專案提供基於 Streamlit 的輕量化 UI (demo light),適合用於本地開發與快速驗證。

🔗 來源

#Stanford #LLM #KnowledgeCuration #RAG #CoSTORM #InformationRetrieval #OpenSource #NLP #KnowledgeGraph #AIWriting

google/gemma-4-31b-it:free 自動生成