Performance Spécifique à la Tâche
Dans le test de référence 'Connexions NYT', O3-Mini obtient un score de 72,4, surpassant de manière significative les 54,4 de DeepSeek-R1, ce qui démontre sa capacité supérieure à résoudre des problèmes. Sur la moyenne globale de LiveBench, O3-Mini est également en tête avec 73,94 par rapport aux 71,38 de DeepSeek-R1. Cependant, dans les tâches mathématiques, DeepSeek-R1 montre un raisonnement numérique plus fort, avec un score de 79,54 contre 65,65 pour O3-Mini.