AKY
MirayWeb Coder's
Aralık ayında tanıtıldığında OpenAI'ın o3 modeli büyük ses getirmişti. Özellikle ileri düzey matematik problemlerinden oluşan FrontierMath testinde yüzde 25 başarı sağladığı açıklanmış, bu oran diğer modellerin yüzde 2'lik performansıyla kıyaslandığında çarpıcı bir fark olarak sunulmuştu. Tabii işin derinine indiğimiz zaman durumun anlatılandan daha farklı olduğunu gördük. FrontierMath'i geliştiren Epoch AI, geçen hafta o3 modelinin bağımsız test sonuçlarını kamuoyuyla paylaştı. %25 Açıklanmıştı, Asıl Sonuç %10 Sonuçlara göre OpenAI'ın açıkladığı gibi %25'lik başarı oranı mevzu bahis değildi. O3'ün bu testlerde yalnızca yaklaşık %10 başarı sağladığı ortaya çıktı. Aslında OpenAI tamamen farklı bir şey söylemedi ama rakamları sunma şekli eleştiriliyor. İlk olarak tanıtımda gösterilen yüksek başarı, daha fazla işlem gücüyle test edilen bir versiyona aitti. Kamuya açık model ise çok daha hafif bir sürüm. Zaten OpenAI'dan Wenda Zhou da geçtiğimiz hafta yapılan bir yayında bu farkı doğruladı; o3 artık daha çok günlük kullanım ve hız odaklı hale getirilmişti. Bu da doğal olarak testlerdeki başarıyı direkt olarak etkiledi. o3-pro Versiyonu Geliyor OpenAI cephesinden bakıldığında o3 hala güçlü bir model. Zaten şirket o3-mini-high ve o4-mini modellerinin FrontierMath'te o3'ten daha iyi performans gösterdiğini de reddetmedi. Hatta çok yakında daha güçlü bir versiyon olan o3-pro'nun tanıtılacağı da duyuruldu. Test sonuçlarının gerçekten farklı gösterilmesinin basit bir sebebi olabilir: Test koşullarının farklı olması. Epoch AI, yaptığı açıklamada OpenAI'ın daha az problem içeren eski bir FrontierMath versiyonunu kullanmış olabileceğini, kendilerinin ise güncel ve daha kapsamlı bir sürümü test ettiğini belirtmeden geçmedi. Sonuç olarak o3 modeli kötü değil ama tanıtımlarda gösterildiği kadar mucizevi de olmayabilir. Buradaki kritik nokta; AI test sonuçlarının her daim %100 gerçeği yansıtmıyor oluşu.