Desempenho Específico por Tarefa
No benchmark do jogo de quebra-cabeça 'Conexões do NYT', o O3-Mini marca 72,4, superando significativamente os 54,4 do DeepSeek-R1, mostrando sua superior habilidade em resolver problemas. Na média global do LiveBench, o O3-Mini também lidera com 73,94 em comparação aos 71,38 do DeepSeek-R1. No entanto, em tarefas de matemática, o DeepSeek-R1 demonstra um raciocínio numérico mais forte, marcando 79,54 contra os 65,65 do O3-Mini.