Desempenho Específico de Tarefas
No benchmark do puzzle 'NYT Connections', o O3-Mini marca 72,4, superando o DeepSeek-R1 em 18 pontos, com uma pontuação de 54,4, mostrando sua capacidade superior de resolução de problemas. Na média global da LiveBench, o O3-Mini também lidera com 73,94 em comparação aos 71,38 do DeepSeek-R1. No entanto, em tarefas de matemática, o DeepSeek-R1 demonstra um raciocínio numérico mais forte, pontuando 79,54 contra os 65,65 do O3-Mini.