Performa Khusus Tugas
Dalam tolok ukur teka-teki 'NYT Connections', O3-Mini mencetak 72,4, mengungguli DeepSeek-R1 dengan 54,4 dengan selisih signifikan 18 poin, memperlihatkan kemampuan pemecahan masalah yang superior. Pada rata-rata global LiveBench, O3-Mini juga memimpin dengan 73,94 dibandingkan dengan DeepSeek-R1 yang 71,38. Namun, dalam tugas matematika, DeepSeek-R1 menunjukkan kemampuan penalaran numerik yang lebih kuat, mencetak 79,54 dibandingkan dengan O3-Mini yang 65,65.