LongNAP:從你的螢幕操作歷史,預測你下一步要做什麼
Learning Next Action Predictors from Human-Computer Interaction想像一下:你的手機知道你接下來要打開哪個 App、要點哪個按鈕、甚至要打什麼字。不是因為你告訴它,而是因為它看了你過去一個月的所有操作,學會了你的習慣。
Stanford 的一組研究者真的去做了這件事。他們找了 20 個人,連續追蹤一整個月的手機使用行為——截圖、點擊、感測器資料——總共 1,800 小時、超過 36 萬個標註動作。然後訓練了一個叫 LongNAP 的模型,目標就一個:預測你下一步要幹嘛。
🔍 為什麼這很難
你現在打的 prompt 其實只包含你意圖的一小部分。真正影響你行為的是整個使用脈絡:你之前在看什麼網頁、剛收到什麼通知、現在幾點、你通常這個時間在做什麼。
這篇論文把這個問題定義成 Next Action Prediction(NAP):給定一個使用者的多模態互動序列(截圖 + 點擊 + 感測器),預測下一個動作。
難在哪?
- 動作空間基本上是無限的——任何時刻你可能做的事有上千種
- 長期依賴很重要——你上午查的航班資訊可能影響你下午的行為
- 每個人的習慣差異巨大——同樣的情境,不同人會做完全不同的事
資料蒐集本身就是一個工程挑戰。他們用 VLM 自動標註原始的螢幕錄影,並且開源了整個標註 pipeline(可以在私有基礎設施上跑,不用把你的螢幕資料傳到雲端)。
🛠️ LongNAP 怎麼做到的
LongNAP 的架構結合了兩個學習機制:
第一個是 parametric learning。用 policy gradient 方法訓練模型,讓它學會根據當前情境產生「使用者特定的推理軌跡」(reasoning trace)。這不是直接預測動作,而是先推理「這個使用者在這個情境下可能在想什麼」。
第二個是 in-context learning。模型會從過去的推理軌跡庫裡檢索相關的案例,放進 context 裡幫助預測。這有點像是給模型一本「這個使用者的行為筆記」,讓它參考歷史模式。
這兩個機制的組合讓 LongNAP 能處理長期互動歷史。單純的 supervised finetuning 只學到統計規律,但 LongNAP 透過 retrieval 拿到具體的歷史片段,推理能力明顯更強。
數字說話:用 LLM-as-judge 評估(0-1 分),LongNAP 比 supervised finetuning 高 79%,比 prompted baseline 高 39%。
- 17.1% 的預測軌跡跟使用者實際行為高度吻合(分數 >= 0.5)
- 過濾高信心預測後,這個數字上升到 26%
而且它能泛化到沒見過的使用者——跨人訓練是可行的。
💡 這代表什麼
我覺得這篇論文最有價值的不是模型本身,而是它定義了一個非常清晰的 benchmark 和 task formulation。Next Action Prediction 這個任務,某種程度上就是「proactive AI」的量化指標。
幾個觀察:
- 17% 的準確率聽起來不高,但考慮到動作空間是開放式的(不是從 10 個選項裡選),這其實相當不錯。你想想,猜一個人下一秒要在手機上做什麼,隨機猜的話準確率趨近於零。
- 隱私問題是房間裡的大象。連續一個月的完整手機使用記錄,包含截圖——這個資料集的敏感程度不用我說。論文提到標註 pipeline 可以在私有基礎設施上跑,但真正要產品化的話,on-device inference 是最低要求。
- 工程可行性方面,我比較擔心的是 retrieval 的部分。如果要從一個月的互動歷史裡檢索相關片段,索引的建立和更新成本不低。在手機端做這件事,記憶體和電量都是限制。
不過往正面想:如果 Apple Intelligence 或 Google 的 on-device AI 能做到 LongNAP 這種程度的行為預測,手機助理的體驗會有質的飛躍。不再是「你問我答」,而是「我知道你需要什麼,在你開口之前就準備好了」。
這個方向會不會成為下一代 AI 助理的核心能力?我覺得有可能。但從論文到產品,中間的隱私、效能、使用者接受度問題,每一個都不簡單。
論文連結 作者:Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi 等(Stanford / Hasso Plattner Institute / NYU)
想像一下:你的手機知道你接下來要打開哪個 App、要點哪個按鈕、甚至要打什麼字。不是因為你告訴它,而是因為它看了你過去一個月的所有操作,學會了你的習慣。
Stanford 的一組研究者真的去做了這件事。他們找了 20 個人,連續追蹤一整個月的手機使用行為——截圖、點擊、感測器資料——總共 1,800 小時、超過 36 萬個標註動作。然後訓練了一個叫 LongNAP 的模型,目標就一個:預測你下一步要幹嘛。
🔍 為什麼這很難
你現在打的 prompt 其實只包含你意圖的一小部分。真正影響你行為的是整個使用脈絡:你之前在看什麼網頁、剛收到什麼通知、現在幾點、你通常這個時間在做什麼。
這篇論文把這個問題定義成 Next Action Prediction(NAP):給定一個使用者的多模態互動序列(截圖 + 點擊 + 感測器),預測下一個動作。
難在哪?
動作空間基本上是無限的——任何時刻你可能做的事有上千種 長期依賴很重要——你上午查的航班資訊可能影響你下午的行為 每個人的習慣差異巨大——同樣的情境,不同人會做完全不同的事
資料蒐集本身就是一個工程挑戰。他們用 VLM 自動標註原始的螢幕錄影,並且開源了整個標註 pipeline(可以在私有基礎設施上跑,不用把你的螢幕資料傳到雲端)。
🛠️ LongNAP 怎麼做到的
LongNAP 的架構結合了兩個學習機制:
第一個是 parametric learning。用 policy gradient 方法訓練模型,讓它學會根據當前情境產生「使用者特定的推理軌跡」(reasoning trace)。這不是直接預測動作,而是先推理「這個使用者在這個情境下可能在想什麼」。
第二個是 in-context learning。模型會從過去的推理軌跡庫裡檢索相關的案例,放進 context 裡幫助預測。這有點像是給模型一本「這個使用者的行為筆記」,讓它參考歷史模式。
這兩個機制的組合讓 LongNAP 能處理長期互動歷史。單純的 supervised finetuning 只學到統計規律,但 LongNAP 透過 retrieval 拿到具體的歷史片段,推理能力明顯更強。
數字說話:用 LLM-as-judge 評估(0-1 分),LongNAP 比 supervised finetuning 高 79%,比 prompted baseline 高 39%。
17.1% 的預測軌跡跟使用者實際行為高度吻合(分數 >= 0.5) 過濾高信心預測後,這個數字上升到 26%
而且它能泛化到沒見過的使用者——跨人訓練是可行的。
💡 這代表什麼
我覺得這篇論文最有價值的不是模型本身,而是它定義了一個非常清晰的 benchmark 和 task formulation。Next Action Prediction 這個任務,某種程度上就是「proactive AI」的量化指標。
幾個觀察:
17% 的準確率聽起來不高,但考慮到動作空間是開放式的(不是從 10 個選項裡選),這其實相當不錯。你想想,猜一個人下一秒要在手機上做什麼,隨機猜的話準確率趨近於零。
隱私問題是房間裡的大象。連續一個月的完整手機使用記錄,包含截圖——這個資料集的敏感程度不用我說。論文提到標註 pipeline 可以在私有基礎設施上跑,但真正要產品化的話,on-device inference 是最低要求。
工程可行性方面,我比較擔心的是 retrieval 的部分。如果要從一個月的互動歷史裡檢索相關片段,索引的建立和更新成本不低。在手機端做這件事,記憶體和電量都是限制。
不過往正面想:如果 Apple Intelligence 或 Google 的 on-device AI 能做到 LongNAP 這種程度的行為預測,手機助理的體驗會有質的飛躍。不再是「你問我答」,而是「我知道你需要什麼,在你開口之前就準備好了」。
這個方向會不會成為下一代 AI 助理的核心能力?我覺得有可能。但從論文到產品,中間的隱私、效能、使用者接受度問題,每一個都不簡單。
論文:https://arxiv.org/abs/2603.05923 作者:Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi 等(Stanford / Hasso Plattner Institute / NYU)
#GenAI #Agent #ProactiveAI #HumanAI #NextActionPrediction #Stanford