2026-03-09 · LongNAP：從你的螢幕操作歷史，預測你下一步要做什麼

想像一下：你的手機知道你接下來要打開哪個 App、要點哪個按鈕、甚至要打什麼字。不是因為你告訴它，而是因為它看了你過去一個月的所有操作，學會了你的習慣。

Stanford 的一組研究者真的去做了這件事。他們找了 20 個人，連續追蹤一整個月的手機使用行為——截圖、點擊、感測器資料——總共 1,800 小時、超過 36 萬個標註動作。然後訓練了一個叫 LongNAP 的模型，目標就一個：預測你下一步要幹嘛。

🔍 為什麼這很難

你現在打的 prompt 其實只包含你意圖的一小部分。真正影響你行為的是整個使用脈絡：你之前在看什麼網頁、剛收到什麼通知、現在幾點、你通常這個時間在做什麼。

這篇論文把這個問題定義成 Next Action Prediction（NAP）：給定一個使用者的多模態互動序列（截圖 + 點擊 + 感測器），預測下一個動作。

難在哪？

資料蒐集本身就是一個工程挑戰。他們用 VLM 自動標註原始的螢幕錄影，並且開源了整個標註 pipeline（可以在私有基礎設施上跑，不用把你的螢幕資料傳到雲端）。

LongNAP 的架構結合了兩個學習機制：

第一個是 parametric learning。用 policy gradient 方法訓練模型，讓它學會根據當前情境產生「使用者特定的推理軌跡」（reasoning trace）。這不是直接預測動作，而是先推理「這個使用者在這個情境下可能在想什麼」。

第二個是 in-context learning。模型會從過去的推理軌跡庫裡檢索相關的案例，放進 context 裡幫助預測。這有點像是給模型一本「這個使用者的行為筆記」，讓它參考歷史模式。

這兩個機制的組合讓 LongNAP 能處理長期互動歷史。單純的 supervised finetuning 只學到統計規律，但 LongNAP 透過 retrieval 拿到具體的歷史片段，推理能力明顯更強。

數字說話：用 LLM-as-judge 評估（0-1 分），LongNAP 比 supervised finetuning 高 79%，比 prompted baseline 高 39%。

而且它能泛化到沒見過的使用者——跨人訓練是可行的。

我覺得這篇論文最有價值的不是模型本身，而是它定義了一個非常清晰的 benchmark 和 task formulation。Next Action Prediction 這個任務，某種程度上就是「proactive AI」的量化指標。

幾個觀察：

17% 的準確率聽起來不高，但考慮到動作空間是開放式的（不是從 10 個選項裡選），這其實相當不錯。你想想，猜一個人下一秒要在手機上做什麼，隨機猜的話準確率趨近於零。
隱私問題是房間裡的大象。連續一個月的完整手機使用記錄，包含截圖——這個資料集的敏感程度不用我說。論文提到標註 pipeline 可以在私有基礎設施上跑，但真正要產品化的話，on-device inference 是最低要求。
工程可行性方面，我比較擔心的是 retrieval 的部分。如果要從一個月的互動歷史裡檢索相關片段，索引的建立和更新成本不低。在手機端做這件事，記憶體和電量都是限制。

不過往正面想：如果 Apple Intelligence 或 Google 的 on-device AI 能做到 LongNAP 這種程度的行為預測，手機助理的體驗會有質的飛躍。不再是「你問我答」，而是「我知道你需要什麼，在你開口之前就準備好了」。

這個方向會不會成為下一代 AI 助理的核心能力？我覺得有可能。但從論文到產品，中間的隱私、效能、使用者接受度問題，每一個都不簡單。

論文連結作者：Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi 等（Stanford / Hasso Plattner Institute / NYU）

Stanford 的一組研究者真的去做了這件事。他們找了 20 個人，連續追蹤一整個月的手機使用行為——截圖、點擊、感測器資料——總共 1,800 小時、超過 36 萬個標註動作。然後訓練了一個叫 LongNAP 的模型，目標就一個：預測你下一步要幹嘛。

🔍 為什麼這很難

這篇論文把這個問題定義成 Next Action Prediction（NAP）：給定一個使用者的多模態互動序列（截圖 + 點擊 + 感測器），預測下一個動作。

難在哪？

動作空間基本上是無限的——任何時刻你可能做的事有上千種長期依賴很重要——你上午查的航班資訊可能影響你下午的行為每個人的習慣差異巨大——同樣的情境，不同人會做完全不同的事

🛠️ LongNAP 怎麼做到的

LongNAP 的架構結合了兩個學習機制：

第一個是 parametric learning。用 policy gradient 方法訓練模型，讓它學會根據當前情境產生「使用者特定的推理軌跡」（reasoning trace）。這不是直接預測動作，而是先推理「這個使用者在這個情境下可能在想什麼」。

第二個是 in-context learning。模型會從過去的推理軌跡庫裡檢索相關的案例，放進 context 裡幫助預測。這有點像是給模型一本「這個使用者的行為筆記」，讓它參考歷史模式。

數字說話：用 LLM-as-judge 評估（0-1 分），LongNAP 比 supervised finetuning 高 79%，比 prompted baseline 高 39%。

17.1% 的預測軌跡跟使用者實際行為高度吻合（分數 >= 0.5）過濾高信心預測後，這個數字上升到 26%

而且它能泛化到沒見過的使用者——跨人訓練是可行的。

💡 這代表什麼

我覺得這篇論文最有價值的不是模型本身，而是它定義了一個非常清晰的 benchmark 和 task formulation。Next Action Prediction 這個任務，某種程度上就是「proactive AI」的量化指標。

幾個觀察：

17% 的準確率聽起來不高，但考慮到動作空間是開放式的（不是從 10 個選項裡選），這其實相當不錯。你想想，猜一個人下一秒要在手機上做什麼，隨機猜的話準確率趨近於零。

隱私問題是房間裡的大象。連續一個月的完整手機使用記錄，包含截圖——這個資料集的敏感程度不用我說。論文提到標註 pipeline 可以在私有基礎設施上跑，但真正要產品化的話，on-device inference 是最低要求。

工程可行性方面，我比較擔心的是 retrieval 的部分。如果要從一個月的互動歷史裡檢索相關片段，索引的建立和更新成本不低。在手機端做這件事，記憶體和電量都是限制。

不過往正面想：如果 Apple Intelligence 或 Google 的 on-device AI 能做到 LongNAP 這種程度的行為預測，手機助理的體驗會有質的飛躍。不再是「你問我答」，而是「我知道你需要什麼，在你開口之前就準備好了」。

這個方向會不會成為下一代 AI 助理的核心能力？我覺得有可能。但從論文到產品，中間的隱私、效能、使用者接受度問題，每一個都不簡單。

論文：https://arxiv.org/abs/2603.05923 作者：Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi 等（Stanford / Hasso Plattner Institute / NYU）

#GenAI #Agent #ProactiveAI #HumanAI #NextActionPrediction #Stanford