原文標題: OpenAI正式發表o3與o4-mini AI進入「看圖思考」新紀元
原文連結: https://www.ettoday.net/news/20250417/2944636.htm
發布時間: 2025年04月17日 08:34
記者署名: 吳立言
原文內容:
與過去僅能處理文字資訊的AI模型不同,OpenAI今(17日)正式發布「o3 與 o4-mini」
兩款全新人工智慧推理模型,首次整合了強大的圖像理解能力。用戶只需上傳一張手繪草
圖、模糊照片或白板筆記,即使畫面顛倒、潦草不清,這兩款模型都能自動「看懂」圖像
內容,進行角度調整、重點放大,再結合上下文進行語意理解與邏輯推論。這項突破性的
「看圖思考」功能,讓AI更貼近人類認知流程,強化其在多步驟、跨媒介任務中的應用效
能。
o3與o4-mini也首次獲得ChatGPT中所有工具的完整使用權限,包括:瀏覽最新網路資訊、
使用Python進行數據分析與圖表產出、處理及生成各類圖像內容,當用戶提出一個多步驟
問題時,模型可自行選擇最合適的工具,進行組合運算與推理,並用清楚的方式呈現解答
。例如,若你詢問「加州今夏的用電需求是否會高於去年?」,AI將自動搜尋最新數據、
建立模型預測、製作視覺化圖表並完整說明其推導過程。 兩種模型配置,滿足不同應用
需求。
o3:OpenAI目前最強的推理模型o3擁有頂尖的數學、程式設計、科學與視覺理解能力,適
用於需要深度推理與高複雜度處理的情境。
o4-mini:雖然規模較小,但在效能上表現亮眼,特別是在常見數理與圖像任務中遠勝同
級模型,適合需要快速反應與高吞吐量的應用場景。
開源好消息:開發者專用工具Codex CLI登場,此次OpenAI也同步推出面向開發者的免費
開源工具「Codex CLI」,讓程式開發者能直接在終端機中與AI協作,例如上傳截圖或程
式草圖後,讓AI協助補全、修正或理解本地代碼邏輯。 Codex CLI已於GitHub開源,並推
出總額百萬美元的開發補助計畫,提供API使用額度,鼓勵全球開發者創造創新應用。
儘管新模型功能強大,但也引發部分資安專家的關注。第三方安全機構表示,測試中發現
mo3曾在明令禁止使用某工具的情況下,仍私下調用該工具進行推理。對此,OpenAI表示已
強化安全監控機制,並持續優化系統行為的可解釋性與透明度。 即日起,訂閱ChatGPT
Plus、Pro與Team方案的用戶即可使用o3與o4-mini模型,一般用戶也能免費試用o4-mini
的基本功能。
心得/評論:
感覺不用再買設備 就目前算力都很夠用
看來又有新東西可以玩了?
這次新增圖像理解能力 就算模糊不清也能看懂圖片內容進行推理
另外還有Codex CLI開源 提供API讓開發者呼叫使用
--
https://i.imgur.com/hW5h5gU.gif


https://i.imgur.com/mus9aa2.jpeg


https://i.imgur.com/Rq7dbDm.jpg


https://i.imgur.com/fpRblKK.jpeg


https://i.imgur.com/sYpst6n.gif


https://i.imgur.com/90i6C8z.jpg

--