Prestazioni Specifiche al Compito
Nel benchmark del puzzle 'Connessioni del NYT', O3-Mini ottiene un punteggio di 72,4, superando di un ampio margine di 18 punti il 54,4 di DeepSeek-R1, dimostrando la sua superiore capacità di risolvere problemi. Nella media globale di LiveBench, O3-Mini è anche in testa con 73,94 rispetto ai 71,38 di DeepSeek-R1. Tuttavia, nei compiti di matematica, DeepSeek-R1 dimostra una più forte capacità di ragionamento numerico, segnando 79,54 contro i 65,65 di O3-Mini.