Rendimiento Específico de la Tarea
En la prueba de referencia del rompecabezas 'Conexiones del NYT', O3-Mini obtiene 72.4, superando a los 54.4 de DeepSeek-R1 por un margen significativo de 18 puntos, mostrando su superior capacidad de resolución de problemas. En el promedio global de LiveBench, O3-Mini también lidera con 73.94 en comparación con los 71.38 de DeepSeek-R1. Sin embargo, en tareas matemáticas, DeepSeek-R1 demuestra un razonamiento numérico más fuerte, alcanzando 79.54 frente a los 65.65 de O3-Mini.