タスク特化の性能
「ニューヨークタイムズの接続」パズルベンチマークにおいて、O3-Mini は 72.4 を得点し、DeepSeek-R1 の 54.4 を 18 ポイントで大きく上回り、その優れた問題解決能力を示しています。LiveBench のグローバル平均でも、O3-Mini は 73.94 で DeepSeek-R1 の 71.38 をリードしています。しかし、数学タスクにおいては、DeepSeek-R1 がより強い数値推論力を持ち、79.54 のスコアで O3-Mini の 65.65 を上回っています。