Görev-Specific Performans
The New York Times Bağlantıları zeka oyunu kıyaslamasında, O3-Mini, DeepSeek-R1’in 54,4 puanına karşılık 18 puan farkla 72,4 puan alarak üstün problem çözme yeteneğini gösteriyor. LiveBench küresel ortalamasında da O3-Mini, DeepSeek-R1’in 71,38 puanına karşılık 73,94 ile önde. Ancak, matematik görevlerinde, DeepSeek-R1 sayısal mantık yürütmede 79,54 puan alarak O3-Mini’nin 65,65 puanına göre daha güçlü.