Türk Telekom mobildeki performansıyla gücünü katlıyor Türk Telekom mobildeki performansıyla gücünü katlıyor

Yapay zeka dünyasında giderek kızışan rekabet, yeni gelişmelerle devam ediyor. OpenAI tarafından geliştirilen GPT-4 modeli, son zamanların en güçlü yapay zeka modeli olarak kabul ediliyordu ancak yeni testler bu durumu değiştirdi. LMSys Chatbot Arena Leaderboard adlı yapay zeka sistemlerinin performansını takip eden bir platform, Anthropic şirketi tarafından geliştirilen Claude-3 Opus modelinin en yüksek puanı aldığını gösterdi. Bu durum, uzun süredir lider olan GPT-4'ün geride kaldığını ortaya koyuyor.

Liderlik Tablosu, "sohbet savaşları" adı verilen bir yarışma sırasında jüriler tarafından değerlendirildi. Farklı konulardan çeşitli komutlar vererek sohbet botlarını test eden jüriler, karşılaştırmalar için Elo derecelendirme sistemini kullandılar.

Claude-3 Opus, son derecelendirme güncellemesinde 1253 Elo puanı alarak zirveye yerleşti. İkinci ve üçüncü sıralarda ise sırasıyla 1251 ve 1248 puanlarla OpenAI GPT-4 önizleme modelleri bulunuyor.

Sıralamada diğer modeller arasında Google Gemini Pro modeli 1203 puanla dördüncü, Anthropic'in önceki Claude-3 Sonnet modeli 1198 puanla beşinci oldu. Ayrıca Çinli şirket Alibaba'nın Qwen1.5 modeli de 1148 puanla dokuzuncu sırada yer aldı.

Görünüşe göre GPT-4 geçen yıl piyasaya sürüldüğünde oldukça yüksek bir standart belirlemişti. Ancak Anthropic geliştiricileri, model eğitimlerinde GPT-4'ü geride bırakmayı başarmış gibi görünüyor. Claude Opus, sohbet savaşında +5/-5'lik skor elde ederek rekor da kırmış oldu. 

What is Claude 3 Opus?. In this rapidly evolving landscape of… | by Cal  Hewitt | Mar, 2024 | Medium

İşte en iyi yapay zeka modeli listesi:

  1. Claude 3 Opus – 1253
  2. GPT-4-1106-preview – 1251
  3. GPT-4-0125-preview – 1248
  4. Bard (Gemini Pro) – 1203
  5. Claude 3 Sonnet – 1196
  6. GPT-4-0314 – 1193
  7. Claude 3 Haiku – 1181
  8. GPT-4-0613 – 1174
  9. Mistral-Large-2402 – 1153
  10. Qwen1.5-72B-Chat – 1153
Muhabir: Nurcan ÇALIŞKAN