OpenAI O3 深度評測:邁向通用人工智慧的關鍵一步
OpenAI 在 2025 年 4 月推出的 O3 模型,在推理能力、自主工具使用,以及視覺理解等方面展現出顯著進展,堪稱朝通用型人工智慧邁進的一大實用步驟。

1. 前言:O3,一款低調上線的新模型
2025年4月,OpenAI 悄悄釋出了一款名為 O3 的新模型。沒有官方部落格公告、也沒有公開發表會——O3 就這樣默默地出現在 ChatGPT 的介面和 OpenAI 的 API 模型列表中,之後也陸續整合進 HuggingChat、Poe 等平台。
雖然目前尚無完整的技術文件,OpenAI 已經將 O3 納入官方模型目錄,並確認它支援文字與圖片輸入。透過 API 測試和實際使用情境,開發者與早期使用者發現這個模型具備幾個關鍵特色:推理能力強、回應速度接近 GPT-3.5、支援基本的視覺輸入,而且價格結構也與 GPT-4 系列有所不同。
2. 模型亮點:OpenAI O3 的核心能力
根據 OpenAI 官方模型參考頁面,以及早期用戶的公開測試結果,O3 模型展現出數個值得關注的特點:
官方文件與社群驗證的能力

加強的文字理解與推理能力
O3 在處理複雜的文字任務上,相較 GPT-3.5 展現出更高的一致性與準確度,像是數學推理、程式碼生成、邏輯分析等任務表現更穩定。多位開發者透過公開專案與測試驗證,O3 在「思路鏈推理」(Chain-of-Thought, CoT)情境中,表現更加穩定。
支援圖片輸入(透過 API)
根據 OpenAI 的官方文件,O3 支援透過 Vision API 上傳與分析圖片。目前已確認具備的能力包括:OCR 文字識別、圖像描述(image captioning)、以及基礎的圖文整合任務。
回應速度快於 GPT-4,接近 GPT-3.5
使用者回報 O3 的回應速度明顯快於 GPT-4,因此特別適合對延遲敏感的應用場景。這項表現也獲得 OpenAI 官方定價文件與社群 API 測試的佐證。
透過 OpenAI API 存取,設計導向實用性
O3 可透過 OpenAI API 使用,支援多種應用任務。根據 OpenAI 的定價頁面,每百萬個輸入 token 收費 $10 美元、快取輸入 $2.5 美元、每百萬個輸出 token 為 $40 美元,定位為一款兼具高效能與延遲友善的模型。
雖然 OpenAI 稱 O3 是目前最強的推理模型,但並未公布其架構、模型規模或訓練資料的細節。它與 GPT-4 或 GPT-4o 的關聯尚不明朗,相關說法也多屬推測。
3. 實際表現:OpenAI O3 到底能做什麼?
1. 推理與問題的解決能力
O3 採用了進階的「模擬推理」技術,讓它能夠處理複雜的問題,並提供深入的分析。在實際測試中,這款模型展現了出色的多步驟推理能力,特別是在科學與數學等領域的表現尤為亮眼。

2. 圖像與視覺理解能力
O3 在視覺推理方面有顯著的進步。它能夠分析複雜的圖表、科學插圖,並從上傳的圖片中提取關鍵資訊。這讓模型在教育、技術與專業領域的應用範圍更加廣泛。

3. 工具使用與自主能力
O3 是第一個展現「自主工具操作能力」的推理模型。它能獨立判斷何時、如何使用各種工具,例如網頁瀏覽、Python 程式運算,以及檔案處理等。這代表 O3 不需要人工引導,就能主動搜尋資訊、撰寫並執行程式碼,甚至解析各種檔案格式。
OpenAI 的官方帳號(@OpenAI)也曾發文指出:
「我們的推理模型首次具備代理式使用 ChatGPT 內所有工具的能力,包括網路搜尋、Python、圖像分析、檔案解讀與圖像生成。」
Introducing OpenAI o3 and o4-mini—our smartest and most capable models to date.
— OpenAI (@OpenAI) April 16, 2025
For the first time, our reasoning models can agentically use and combine every tool within ChatGPT, including web search, Python, image analysis, file interpretation, and image generation. pic.twitter.com/rDaqV0x0wE
4. 與前代模型比較:O3 的進步與取捨
1. 推理能力的大躍進
與前一代模型 O1 相比,O3 在處理複雜問題上的表現有了顯著提升。不論是邏輯推理還是多步驟分析,O3 都展現出更強的穩定性與準確度。

2. 資源消耗與回應速度的平衡
當然,功能越強,運算資源的消耗也越高。O3 相較於以往模型需要更多運算資源,這也讓它的回應速度略慢一些。不過,OpenAI 因應不同使用需求,推出了多種版本,特別是靈活度較高的 O3-mini 系列。
O3-mini 提供三種推理強度設定:
- 低強度(Low):回應最快,適合對速度要求高、但邏輯複雜度低的任務。
- 中強度(Medium):在速度與推理能力之間取得平衡。
- 高強度(High):適合需要深入分析的任務,雖然反應稍慢,但推理表現最強。
3. 多元應用場景
根據不同推理強度與回應速度的組合,O3 系列能靈活應用在各種情境中:
- O3 完整版:適用於科學研究、進階資料分析、或需要多種工具鏈整合的複雜應用。
- O3-mini-high:適合內容創作、教育輔導、策略協助等需要較高推理能力的情境。
- O3-mini-medium/low:最適合日常助手、客服應答、基礎資訊查詢等對即時性要求較高的任務。
5. 專家看法:OpenAI O3 的實戰表現
在接受《Business Insider》專訪時,OpenAI 執行長 Sam Altman 談到了公司在模型命名方面面臨的挑戰。他透露,OpenAI 計劃在 2025 年夏季改革命名系統,希望簡化產品線,提升用戶體驗。針對像 O3 和 O4-mini 這類新模型,他坦言名稱可能會讓人有點混淆,但也強調這些模型代表了 AI 推理能力上的重大突破。
台北商業大學前校長暨叡揚資訊顧問張瑞雄教授指出,OpenAI 的 O3 模型在多項 AI 基準測試中表現卓越,特別是在 ARC-AGI 測評中達到 87.5% 的高分,超越人類平均水平的 85%。他強調,這代表 AI 在抽象推理與通用能力上取得重大突破。然而,張教授也提醒,O3 在某些簡單任務上仍有不足,顯示 AI 在模擬人類綜合智力方面仍有挑戰。
延伸閱讀:O3模型的誕生:人工智慧的進步與挑戰|專家論點【張瑞雄】
結論:O3 是我們距離 AGI 最近的一次嗎?
首先,我們需要澄清一個可能的誤解:2025 年 4 月 OpenAI 發布的 O3,是一個全新模型,並非去年的 GPT-4o(也叫 GPT-4 Omni)。雖然它們的名字聽起來相似,但其本質上是完全不同的。O3 不僅僅是 GPT-4 的升級,而是一次新的嘗試,讓 OpenAI 更接近實現人工通用智慧(AGI)。
O3 帶來的突破不僅僅是在「更快」或「更準確」這些層面,而是在基礎思維上的轉變,展現出更「類人化」的智慧:
- 它能夠處理複雜的問題,並將其系統化地拆解、分析,提供解決方案,看起來就像是它真正在「思考」一樣。
- 它能夠自主決定何時使用工具來完成任務,無需指示,自己找出方法。
- 它理解語言、圖像和聲音之間的關係,能夠像一個真正理解世界的智慧體,而不僅僅是解讀圖像或轉錄聲音。
- 更令人印象深刻的是,它能夠通過互動學習並優化行為,展示出一種學習型的智慧,儘管它還不具備完整的「意識」。
這些能力讓許多人開始重新思考一個關鍵問題:AGI 真的就快來了嗎?
當然,我們不必急於下結論。儘管 O3 非常強大,但它仍然不是一個「無所不能」的智能體。它不會設定自己的目標,也不理解情感,無法完全處理所有複雜的現實情境。它依然是一個工具——一個極為先進的工具,但仍然缺乏主觀的意識。
最後我想說
O3 可能不是 AGI 的終點,但它很可能是轉捩點——讓我們意識到 AGI 的真正臨近。它提醒我們,AI 的未來不是一個遙不可及的幻想,而是持續進化的現實。現在的真正挑戰在於我們如何引導它,確保它對人類來說是安全、可控且有益的。
在 O3 的時代,我們不只是「使用」AI——而是開始真正「與它共存」。
不過,值得注意的是,O3 所謂的「優越表現」也並非毫無爭議。根據 TechCrunch 在 2025 年 4 月 20 日的報導,研究機構 Epoch 指出,O3 在某些標準測試上的得分僅約為 10%,與 OpenAI 所宣稱的高分成績有著明顯落差。
這提醒我們:在評估任何 AI 模型時,都應該保持批判性的眼光,參考多方數據來源,而不是僅僅相信公司一方的說法。
我們也正親身經歷這場轉變。作為一個 AI 工具整合平台,Monica 已率先導入 OpenAI 最新的 O3 模型,期望能在不久的將來,為使用者帶來更聰明、更自然,甚至更「有思考感」的 AI 互動體驗。
AI 的未來,不再只是「工具」的角色,而是能夠真正與你協作、值得信賴的「夥伴」。我們會持續關注 AI 的演進,並努力將這項尖端技術帶給每一位平凡但不簡單的使用者。