《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > OpenAI推出首個智能體Operator

OpenAI推出首個智能體Operator

2025-01-24
來源:DeepTech深科技
關鍵詞: OpenAI AI智能體 Operator

當地時間 1 月 23 日,OpenAI 正式推出了其首款 AI 智能體 Operator

它可以通過自帶的瀏覽器獨立瀏覽網頁,并通過鍵入、單擊和滾動來與之交互,能夠完成填寫表格、訂購日常用品,甚至是創建表情包的任務。

1.png

(來源:OpenAI)

OpenAI 表示,“它目前處于研究預覽階段,這意味著它存在局限性,并將根據用戶反饋不斷變化。Operator 是我們的第一批智能體(Agent)之一,它們是能夠獨立為你工作的 AI,你給它一個任務,它就會執行。”

Operator 將首先向美國的 ChatGPT Pro 訂閱用戶推出。OpenAI 表示,它計劃最終將此功能推廣給其 Plus、Team 和 Enterprise 級別的更多用戶群體。作為一項研究預覽工作,它目前可通過獨立網站訪問,OpenAI 表示,希望很快將 Operator 集成到其所有 ChatGPT 應用中。

山姆·奧特曼(Sam Altman)對這項技術充滿期待和信心。這位 OpenAI CEO 在發布會直播中明確表示:“這款產品是我們進軍智能體領域的開始。”

與此同時,OpenAI 總裁兼聯合創始人格雷格·布羅克曼(Greg Brockman)也在 X 上寫道:“2025 年將是智能體元年。”

作為 ChatGPT 的重大升級,Operator 不僅僅是一個簡單的信息處理工具,更是直接展現了 AI 工具從被動接收信息向主動行動的關鍵跨越。

2.png

圖 | 在演示視頻中,Operator 可以網購食物(來源:OpenAI)

Operator 的核心能力是替代人類進行一系列電腦操作。

作為一個智能體,它可以像真人一樣流暢地瀏覽網頁,精準地點擊、滾動、填寫表單,甚至能獨立完成訂票、購物、訂餐等相當復雜的任務。不同于傳統的虛擬助手,這款 AI 助手真正具備了“行動”的能力,而非僅僅給出建議或答復。

Operator 背后的技術被 OpenAI 稱為“計算機使用智能體(Computer-Using Agent,簡稱 CUA)”模型。這一全新模型巧妙地結合了 GPT-4o 的視覺識別能力和高級推理技術,可以通過截圖“理解”網頁,并像人類一樣精準操作鼠標和鍵盤。

CUA 經過訓練,可以像人類一樣與圖形用戶界面(GUI,Graphical User Interface)進行交互,包括人們在屏幕上看到的按鈕、菜單和文本。這使它能夠靈活地執行數字任務,而無需使用特定于操作系統或網絡的 API。 

3.png

圖 | Operator 可以根據指令預定餐廳(來源:OpenAI)

根據用戶的指令,CUA 通過集成感知、推理和動作的迭代循環進行操作,其工作原理大致分為三個關鍵階段。

感知:將屏幕截圖添加到模型的上下文中,提供計算機當前狀態的視覺快照,用于詳細分析頁面內容和結構。

推理:使用復雜的思路鏈推理后續步驟,同時考慮當前和過去的屏幕截圖和操作。這使其能夠評估其觀察結果、跟蹤中間步驟并動態調整,從而提高任務表現。

操作:執行操作(單擊、滾動或鍵入),直到確定任務已完成或需要用戶輸入。雖然 CUA 會自動處理大多數步驟,但對于敏感操作(例如輸入登錄詳細信息或填寫驗證碼),CUA 會尋求用戶確認。

這種決策過程使 Operator 能夠在不同的網頁環境中靈活應對。尤其是在 WebArena 和 WebVoyager 兩項瀏覽器操作測試中,驅動 Operator 的 CUA 模型展現出了令人印象深刻的表現。

4.png

圖 | Operator 在不同任務中的測試成績,全面超過了此前 SOTA(來源:OpenAI)

WebArena 利用自托管的開源網站離線模擬網購、在線商店內容管理、社交論壇等網絡場景。WebVoyager 則在 Amazon、GitHub 和 Google Maps 等真實網站上測試模型的性能。不過 WebAreana 的任務相對更加復雜。

CUA 在 WebArena 上的成功率為 58.1%,而在 WebVoyager 測試中,其在實際網站導航中取得了驚人的 87% 成功率,可以獨立完成從在線購物到旅行預訂的各種任務,展現出了令人興奮的潛力。

除了基礎瀏覽能力,Operator 還具備個性化定制功能。用戶可以為特定網頁或全站添加自定義指令,并在主頁保存這些指令,實現跨聊天窗口的多任務并行處理。這種靈活性極大地提升了其實用價值。

此外,在 OSWorld 基準測試中(用于評估模型控制 Ubuntu、Windows 和 macOS 等完整操作系統的能力),CUA 的成功率為 38.1%。不過,人類在這項測試中的平均成績是 72.4%,說明 AI 還有很大的進步空間。

OpenAI 還表示,其觀察到隨著測試時間的增加(這意味著允許進行更多操作步驟),CUA 的表現會提高。

5.png

圖 | 隨著最大允許步驟數的增加,CUA 的表現也越來越好(來源:OpenAI)

考慮到 AI 智能體可能帶來的潛在風險,OpenAI 在 Operator 中設置了多重嚴格的安全機制。用戶可以隨時接管控制權,填寫信用卡信息和確認付款等敏感操作都需要人工明確確認。

目前,Operator 還被限制不能處理銀行交易、發送電子郵件(盡管 CUA 可以做到這一點)、刪除日歷事項等高風險任務。

除了用戶控制機制,Operator 還配備了濫用防范系統。它能夠識別并拒絕有害請求,并在檢測到可疑活動時立即暫停執行。它還配有黑名單機制,許多賭博網站、成人娛樂網站以及毒品或槍支零售網站都無法訪問。

6.png

圖 | OpenAI 介紹的一些安全措施(來源:OpenAI)

OpenAI 在其網站上解釋道,Operator 使用的監控系統旨在限制模型嘗試惡意提示、隱藏指令和網絡釣魚。如果檢測到可疑活動,監控系統會暫停 Operator 的工作,而自動和人工審查機制會不斷更新保障措施。

不過即使是瀏覽網頁和操作電腦,Operator 目前也存在一定局限性。OpenAI 表示,“目前還不能指望 CUA 在所有場景下都能可靠運行。”

例如,它還無法可靠地處理許多復雜或專業的任務,例如創建詳細的幻燈片、管理復雜的日歷系統,或與高度定制或非標準的 Web 界面進行交互。

與此同時,許多網站(如 Reddit)已經阻止 AI 智能體瀏覽,因此 Operator 無法訪問它們。在這種研究預覽模式下,出于性能或法律原因,OpenAI 還阻止了 Operator 訪問某些資源密集型網站(如 Figma)或直接競爭對手擁有的網站(如 YouTube)。

最后,CEO 奧特曼在直播中表示,Operator 是 OpenAI 的“第一批智能體”,未來幾周和幾個月還會推出更多的智能體。

越來越多的 AI 智能體出現,標志著 AI 正從被動的信息處理工具,轉變為主動的數字生態系統參與者。無論是簡化日常事務,還是創新商業工作流程,AI 正在變得越來越實用。人類與 AI 的協作,正在從想象逐漸變為現實。


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 国产亚洲欧美日韩精品一区二区| 好吊色青青青国产在线观看| 亚洲福利电影一区二区?| 野花国产精品入口| 国产自产21区| 一级全免费视频播放| 日韩精品一区二区三区色欲av| 亚洲精品成人网久久久久久| 老妇高潮潮喷到猛进猛出| 国产欧美专区在线观看| 99在线精品免费视频| 成人品视频观看在线| 久久综合精品国产二区无码| 欧美高清熟妇啪啪内射不卡自拍| 又黄又刺激视频| 韩国精品福利一区二区三区| 国产精品高清一区二区三区不卡| 一本久道久久综合中文字幕| 日本全彩翼漫画全彩无遮挡| 亚洲人成色7777在线观看不卡| 狠狠色欧美亚洲狠狠色www| 国产一区二区三区在线观看免费| 四虎成年永久免费网站| 在线看www免费看| 一级做a爰片性色毛片刺激| 日本高清免费网站| 亚洲一区欧洲一区| 毛片色毛片18毛片美女| 免费日本黄色片| 美女露胸视频网站| 国产免费啪嗒啪嗒视频看看| 浮力影院第一页| 在线观看亚洲免费视频| 一本大道一卡2卡三卡4卡麻豆| 日产乱码卡1卡2卡三卡四在线| 亚洲av午夜成人片精品网站| 欧美日韩亚洲无线码在线观看| 人人干人人干人人干| 精品国产杨幂在线观看| 国产三级精品三级在专区| 黄网址在线永久免费观看|