TechCrunch AI ★ 108 2 min

New Microsoft tool lets devs spin up AI behavior tests using text descriptions

ai evaluationsAI regression testingMicrosoft

🔗 https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/

📌 微軟開源 ASSERT 工具介紹
你是否曾擔心 AI 助手會不經意違反公司政策?現在,一行自然語言描述就能自動產出對應的測試案例,讓行為合規測試變得更直接。

🤔 為何需要應用特定的 AI 行為測試
隨著 AI 模型被嵌入具體產品或服務,通用的安全與對齊評估無法涵蓋每家公司的政策、工具與操作限制。開發者亟需一種能根據自身場景快速產生行為測試的方法,以確保模型在實際使用中符合預期。

🧪 ASSERT 如何把文字規則變成可執行測試
Microsoft 釋出的開源框架 ASSERT(Adaptive Spec‑driven Scoring for Evaluation and Regression Testing)接受純文字的目標、政策或預期行為描述。它會先將這些描述結構化為可接受與不可接受的行為集合,然後自行生成問題情境與測試案例,最後在目標系統上執行並給出得分。過程中也會記錄 AI 系統的中間動作與工具呼叫,方便除錯。

💡 開放原始碼、可記錄中間步驟,方便除錯
因為 ASSERT 是開源專案,開發者可以直接將其納入 CI/CD 流程,持續檢查模型是否遵守如「不得向公司外發送郵件」或「機密資訊僅限於 C‑level 主管」等規則。紀錄的執行路徑讓團隊能快速定位失敗發生的環節,而不只是看到最終的 pass/fail 結果。

⚠️ 工具仍在早期階段,需開發者自行驗證適用性
目前的說明多聚焦於概念與基本功能,尚未公開大規模實驗結果或與其他評估套件的比較。因此,使用時仍建議先在小範圍專案上驗證其生成的測試案例是否真正貼近實際需求。

🎯 對於想快速建立行為合規測試的團隊而言,值得試用
如果你的產品依賴於特定的業務規則或工具約束,ASSERT 提供了一種將自然語言規則直接轉為可執行測試的途徑,可降低手動撰寫測試腳本的成本,並在模型迭代過程中持續確保行為符合預期。

🔗 資料來源
📝 New Microsoft tool lets devs spin up AI behavior tests using text descriptions
👤 Ram Iyer – TechCrunch AI
🔗 https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/

#Microsoft #ASSERT #AI測試 #開源工具 #行為合規 #TechCrunch #AI開發

tencent/hy3-preview:free 自動生成