Taakspecifieke Prestaties
In de benchmark voor de puzzel 'NYT Connections' scoort O3-Mini 72,4, wat significant hoger is dan DeepSeek-R1’s 54,4 met een verschil van 18 punten, wat zijn superieure probleemoplossend vermogen toont. Op de wereldwijde gemiddelde score van LiveBench staat O3-Mini ook vooraan met 73,94 vergeleken met DeepSeek-R1’s 71,38. Echter, bij wiskundige taken toont DeepSeek-R1 sterkere numerieke redenering, met een score van 79,54 tegen O3-Mini’s 65,65.