OpenAI發(fā)布視覺推理模型o3和o4-mini 開源輕量級(jí)編程Agent Codex CLI
4月17日,OpenAI發(fā)布兩大視覺推理模型OpenAI o3和o4-mini,這也是OpenAI o系列中首次可以使用圖像進(jìn)行思維鏈推理的模型。OpenAI還開源了輕量級(jí)編程Agent——Codex CLI。
據(jù)報(bào)道,OpenAI o3是最強(qiáng)大的推理模型,它非常適合需要多方面分析的復(fù)雜查詢,它在分析圖像、圖表和圖形等視覺任務(wù)上表現(xiàn)尤其出色。o3在解決困難的現(xiàn)實(shí)世界任務(wù)中比OpenAI o1犯的主要錯(cuò)誤少20%,尤其是在編程、商業(yè)/咨詢和創(chuàng)造性思維等領(lǐng)域表現(xiàn)出色。
OpenAI o4-mini是一個(gè)針對(duì)快速、成本效益推理進(jìn)行優(yōu)化的較小模型。它在大小和成本方面取得了顯著的性能,特別是在數(shù)學(xué)、編碼和視覺任務(wù)方面。它在非STEM任務(wù)以及數(shù)據(jù)科學(xué)等領(lǐng)域的表現(xiàn)也優(yōu)于其前身o3-mini。
值得注意的是,OpenAI特別強(qiáng)調(diào),o3和o4-mini可以通過API中的函數(shù)調(diào)用完全訪問ChatGPT中的工具,以及用戶自己的自定義工具。這些模型經(jīng)過訓(xùn)練,能夠推理如何解決問題,選擇何時(shí)以及如何使用工具,以正確的輸出詳細(xì)而周到的答案。
OpenAI舉例稱,例如,用戶可能會(huì)問:“與去年相比,加利福尼亞州的夏季能源使用情況如何?”該模型可以在網(wǎng)絡(luò)上搜索公用事業(yè)數(shù)據(jù),編寫Python代碼來構(gòu)建預(yù)測(cè),生成圖表或圖像,并解釋預(yù)測(cè)背后的關(guān)鍵因素,將多個(gè)工具調(diào)用鏈接在一起。推理允許模型根據(jù)需要對(duì)遇到的信息做出反應(yīng)和調(diào)整。例如,他們可以在搜索提供商的幫助下多次搜索網(wǎng)絡(luò),查看結(jié)果,并在需要更多信息時(shí)嘗試新的搜索。這種靈活的戰(zhàn)略方法使模型能夠處理需要訪問模型內(nèi)置知識(shí)之外的最新信息、擴(kuò)展推理、綜合和跨模式輸出生成的任務(wù)。
目前,ChatGPT Plus、Pro和Team用戶可以使用o3、o4-mini和o4-mini-high,這些模型會(huì)取代o1、o3-mini和o3-mini-h(huán)igh。o3和o4-mini通過Chat Completions API和Responses API向開發(fā)者開放。
OpenAI預(yù)計(jì)在幾周內(nèi)發(fā)布OpenAI o3-pro,并配備完整工具支持。同時(shí),OpenAI還宣布開源編程Agent Codex CLI,目前Codex CLI已在github上完全開源。Codex CLI是一個(gè)可以在端側(cè)運(yùn)行的輕量級(jí)編碼Agent,它直接在用戶的計(jì)算機(jī)上工作,旨在最大限度地提高o3和o4-mini等模型的推理能力,并將支持GPT‑4.1等其他API模型。