Výkon ve specifických úkolech
V referenčním testu 'NYT Connections' získal O3-Mini skóre 72,4, čímž o významný margin 18 bodů překonal DeepSeek-R1, který získal 54,4, a ukázal tak svou vynikající schopnost řešení problémů. V globálním průměru LiveBench také vede O3-Mini se skórem 73,94 oproti DeepSeek-R1 s 71,38. Nicméně, v matematických úlohách prokazuje DeepSeek-R1 silnější numerické usuzování s výsledkem 79,54 ve srovnání s 65,65 u O3-Mini.