Rendimiento Específico de Tareas
En el benchmark de rompecabezas 'Conexiones del NYT', O3-Mini obtiene una puntuación de 72,4, superando significativamente los 54,4 de DeepSeek-R1 por un margen de 18 puntos, mostrando su superior capacidad para resolver problemas. En el promedio global de LiveBench, O3-Mini también lidera con 73,94 frente a los 71,38 de DeepSeek-R1. Sin embargo, en tareas matemáticas, DeepSeek-R1 demuestra un razonamiento numérico más fuerte, con una puntuación de 79,54 frente a los 65,65 de O3-Mini.