Neler yeni

Foruma hoş geldin, Ziyaretçi

Forum içeriğine ve tüm hizmetlerimize erişim sağlamak için foruma kayıt olmalı ya da giriş yapmalısınız. Foruma üye olmak tamamen ücretsizdir.

Web Arşivi

Sizleri Aramızda Görmekten Mutluluk Duyuyoruz :) ~ Tıklayın ~

Beklenti Büyüktü ama OpenAI'ın ChatGPT o3 Modeli Büyük Hayal Kırıklığı Oldu

AKY Çevrimdışı

AKY

MirayWeb Coder's
1 Ekim 2022
37,656
Aralık ayında tanıtıldığında OpenAI'ın o3 modeli büyük ses getirmişti. Özellikle ileri düzey matematik problemlerinden oluşan FrontierMath testinde yüzde 25 başarı sağladığı açıklanmış, bu oran diğer modellerin yüzde 2'lik performansıyla kıyaslandığında çarpıcı bir fark olarak sunulmuştu. Tabii işin derinine indiğimiz zaman durumun anlatılandan daha farklı olduğunu gördük. FrontierMath'i geliştiren Epoch AI, geçen hafta o3 modelinin bağımsız test sonuçlarını kamuoyuyla paylaştı. %25 Açıklanmıştı, Asıl Sonuç %10 Sonuçlara göre OpenAI'ın açıkladığı gibi %25'lik başarı oranı mevzu bahis değildi. O3'ün bu testlerde yalnızca yaklaşık %10 başarı sağladığı ortaya çıktı. Aslında OpenAI tamamen farklı bir şey söylemedi ama rakamları sunma şekli eleştiriliyor. İlk olarak tanıtımda gösterilen yüksek başarı, daha fazla işlem gücüyle test edilen bir versiyona aitti. Kamuya açık model ise çok daha hafif bir sürüm. Zaten OpenAI'dan Wenda Zhou da geçtiğimiz hafta yapılan bir yayında bu farkı doğruladı; o3 artık daha çok günlük kullanım ve hız odaklı hale getirilmişti. Bu da doğal olarak testlerdeki başarıyı direkt olarak etkiledi. o3-pro Versiyonu Geliyor OpenAI cephesinden bakıldığında o3 hala güçlü bir model. Zaten şirket o3-mini-high ve o4-mini modellerinin FrontierMath'te o3'ten daha iyi performans gösterdiğini de reddetmedi. Hatta çok yakında daha güçlü bir versiyon olan o3-pro'nun tanıtılacağı da duyuruldu. Test sonuçlarının gerçekten farklı gösterilmesinin basit bir sebebi olabilir: Test koşullarının farklı olması. Epoch AI, yaptığı açıklamada OpenAI'ın daha az problem içeren eski bir FrontierMath versiyonunu kullanmış olabileceğini, kendilerinin ise güncel ve daha kapsamlı bir sürümü test ettiğini belirtmeden geçmedi. Sonuç olarak o3 modeli kötü değil ama tanıtımlarda gösterildiği kadar mucizevi de olmayabilir. Buradaki kritik nokta; AI test sonuçlarının her daim %100 gerçeği yansıtmıyor oluşu.
 

Forumdan daha fazla yararlanmak için giriş yapın yada üye olun!

Forumdan daha fazla yararlanmak için giriş yapın veya kayıt olun!

Kayıt ol

Forumda bir hesap oluşturmak tamamen ücretsizdir.

Şimdi kayıt ol
Giriş yap

Eğer bir hesabınız var ise lütfen giriş yapın

Giriş yap

Tema düzenleyici

Tema özelletirmeleri

Grafik arka planlar

Granit arka planlar