亞馬遜(Amazon)近日推出先進人工智能模型「Nova Act」,旨在打造更聰明的網頁原生(web-native)AI代理(agents)。不同於傳統僅回應查詢的語言模型,Nova Act 被設計為能在數位與實體環境中執行多步驟任務的智能代理,實現如籌劃婚禮或處理複雜IT任務等高難度工作。
Nova Act 的關鍵特點在於其開發套件(SDK),允許開發者建立能於瀏覽器內自動完成任務的AI代理,例如發出休假通知、預約日曆、或自動回覆電郵。SDK 支援將複雜流程分割為「原子指令」(atomic commands),並可整合 Playwright 操控瀏覽器、API 呼叫、Python 腳本及多執行緒處理,進一步提升精確度與效率。
在測試表現方面,Nova Act 在內部基準評估中表現出色,於 ScreenSpot Web Text 測試中取得 0.939 的高分,顯著超越競爭對手如 Claude 3.7 Sonnet(0.900)及 OpenAI 的 CUA(0.883)。在視覺互動測試方面亦具優勢,雖然在 GroundUI 測試上稍遜,但亞馬遜表示這是未來優化的重點。
此外,Nova Act 展現出強大的遷移能力,即使在未曾訓練的環境中如網頁遊戲,也能良好運作。該技術已應用於 Alexa+,使AI助理能自主操作網頁,即便API存取受限亦可完成任務。
Nova Act 被視為亞馬遜推動智能AI代理長遠願景的第一步,未來將透過強化式學習(Reinforcement Learning)持續進化,最終實現具備高度自治與實用性的AI代理。