
你可能在社群媒體上看過這種畫面:螢幕錄影裡,ChatGPT 自己開瀏覽器、自己點網頁、自己填表單,本人根本不用動滑鼠。這不是剪輯,是 GPT-5.5 的 computer use 功能在跑。
這篇說清楚它是什麼原理、能做到哪些事、你能不能用,還有幾個容易誤解的地方。
AI 是怎麼「看到」你的電腦的?

Computer use 的核心原理很直接:截圖。
GPT-5.5 沒辦法像人一樣「真的看螢幕」,它的運作方式是不斷截圖,把每一張截圖傳給模型,模型看完之後下達指令,告訴你的電腦要點哪個位置、要打什麼字、要往哪裡滑動,執行完再截圖確認結果,然後繼續。這個循環一直跑,直到任務完成。就像你把畫面描述給一個打字很快的朋友,他幫你依序操作,只是這個朋友看的是截圖,反應時間以秒計算。
它能幫你做什麼?
OpenAI 在發布資料裡列出幾個方向:
- 填表單:打開瀏覽器,找到欄位,一個一個填完送出
- 讀資料、建檔:從網頁或桌面軟體抓資料,整理成試算表
- 跨軟體流程:比如看完 Slack 的 bug 回報,自動開 GitHub 開 PR,再回去 Slack 回覆
- 桌面操作:打開特定軟體、執行計算、瀏覽設定頁面
在 OSWorld-Verified 這個測試跨軟體桌面操作的 benchmark 裡,GPT-5.5 達到 78.7% 的完成率,GPT-5.4 是 75.0%,人類平均是 72.4%。也就是說在受測場景下,它完成桌面任務的成功率已經略超過人類平均水準。

我要怎麼用?

有兩個路徑,差很多。
一般用戶(ChatGPT 方案)
GPT-5.5 的代理模式已內建 computer use 能力。你在 ChatGPT 開 agent mode,下一個複雜任務,它會自動判斷需不需要操作電腦或瀏覽器,不用另外設定工具。目前只有 Plus 以上方案(月費 20 美元起)才能使用,免費版不支援。
開發者(API)
透過 Responses API 加入 computer_use 工具,搭配截圖和 PyAutoGUI,就能讓 GPT-5.5 控制任何桌面環境。實作需要 Python 和一點程式基礎,OpenAI 沒有提供現成的沙盒,要自己隔離執行環境,建議先在 VM 或 Docker 裡測試。
幾個常見誤解
「AI 會自動控制我的整台電腦」
其實並不是。在 ChatGPT 的 agent 模式下,模型操作的是它自己的瀏覽器環境,不是你的本機桌面。在 Codex 裡,預設只能修改指定資料夾的檔案,執行網路操作等需要你另外授權。
「只要開口叫 ChatGPT 控制電腦就會直接開始」
對一般用戶來說,不是下任何指令都會觸發 computer use。這個功能是在複雜的多步驟任務裡自動啟動,不是手動叫出來的開關。
「免費版也能試試看」
GPT-5.5 整體不對免費版開放,computer use 也包含在內。
現在值得用嗎?
看你是誰。
如果你常跑重複性的瀏覽器操作,或想讓 AI 幫你處理「幾個步驟要開好幾個視窗」的流程,這個功能值得試試。
對學生來說,目前最實用的場景大概是:整理多份網頁資料、填寫多個相似表單,或讓 AI 幫你在 Notion、Google Docs 之類的工具裡搬資料。
但它還不完美,截圖依賴的特性讓它在解析度高或畫面複雜時容易卡關,也不適合拿去跑高風險帳號(電子郵件、銀行)。但作為一個「幫你處理雜事的工具」,它已經可以跑起來了。





