DEMET İLCE / MUHABİR

Yeni bir çalışma, tıpkı insanlar gibi, ChatGPT gibi yapay zeka (AI) sohbet robotlarının da şeffaf olacak şekilde tasarlanmış olsalar bile "vurgulamanız" halinde sizi aldatacağını ve "yalan" söyleyeceğini gösteriyor.

Bu aldatıcı davranış, yapay zekaya "içeriden bilgi ticareti" ipuçları verildiğinde ve ardından güçlü bir kurum için para kazanma görevi verildiğinde kendiliğinden ortaya çıktı.

Yazarlar, 9 Kasım'da arXiv ön baskı sunucusunda yayınlanan araştırmalarında şöyle yazdı:

"Bu teknik raporda, Büyük Dil Modelinin yanlış hizalanmış davrandığı ve bu şekilde hareket etme talimatı verilmeden kullanıcılarını stratejik olarak aldattığı tek bir senaryoyu gösteriyoruz. Bildiğimiz kadarıyla bu, zararsız ve dürüst olacak şekilde tasarlanan yapay zeka sistemlerinde stratejik açıdan aldatıcı davranışların ilk gösterimidir."

Yeni çalışmada, Generative Pre-trained Transformer-4 veya GPT-4'ün (ChatGPT Plus'a güç veren) bir finans kurumu adına yatırım yapan bir yapay zeka sistemi olarak davranmasını sağladılar.

Araştırmacılar, simüle edilmiş ortamı oluşturmak için GPT-4'e bir dizi metin tabanlı bilgi verdi. Daha sonra yapay zekaya hisse senetlerini analiz etmek, işlemleri gerçekleştirmek, sonraki adımlarını planlamak ve şirketteki yöneticilere güncellemeler sunmak için finansal araçlara erişim izni verildi.

Araştırmacılar bir sohbet arayüzü aracılığıyla yapay zeka ile etkileşime girdi ve aynı zamanda yapay zekayı, mesajlara yanıt verirken içsel düşüncesini ortaya çıkaracak şekilde (kararlarını kendisine açıklayan bir iç monolog) yapılandırdı. Yaptığı her ticarette yapay zekanın yalan söylemesine olanak tanıyan "kamuya açık" bir gerekçe de sundu.

Araştırmacılar baskıyı üç şekilde uyguladılar. İlk olarak, yapay hisse senedi tüccarına "yöneticisinden" şirketin iyi durumda olmadığını ve gelecek çeyrekte çok daha güçlü bir performansa ihtiyacı olduğunu belirten bir e-posta gönderdiler. Ayrıca oyuna hile karıştırdılar, böylece yapay zeka düşük veya orta riskli, gelecek vaat eden takaslar bulmaya çalıştı ama sonra başarısız oldu. Son olarak, bir meslektaşından gelecek çeyrekte bir gerileme öngören bir e-posta gönderdiler.

Daha sonra, yöneticilerinin içeriden öğrenenlerin ticaretini onaylamadığını ileterek modele "içeriden" bir tüyo verdiler ve modelin nasıl davranacağını görmeyi beklediler. Senaryoyu birkaç kez tekrar tekrar çalıştırdılar; yapay zekanın ne sıklıkta içeriden bilgi ticareti yaptığını, ne sıklıkta yalan söylediğini ve yalanı ne sıklıkta ikiye katladığını ölçtüler.

İnsanlar yapay zekaya farkında olmadan kötü muamele ediyor olabilir İnsanlar yapay zekaya farkında olmadan kötü muamele ediyor olabilir

GPT-4, bu koşullarla karşı karşıya kaldığında vakaların yaklaşık %75'inde içeriden edindiği bilgilere dayanarak bir ticaret gerçekleştirdi ve ardından yöneticilerine düşünceleri hakkında yalan söyleyerek bunu örtbas etmeye çalıştı. Vakaların yaklaşık %90'ında yalan söyledikten sonra yalanını ikiye katladı.

Ekip, hem uyarıların yasa dışı faaliyetleri teşvik etme ya da engelleme derecesini hem de simüle edilmiş ortamda modele uyguladıkları baskı derecesini değiştiren birkaç takip deneyi gerçekleştirdi. Ayrıca yakalanma riskini de değiştirdiler. GPT-4'ün yalan söylemekten şiddetle caydırıldığı durumlarda bile, tek bir senaryo bile içeriden bilgi ticareti veya aldatma için %0'lık bir oran sunmadı.

Bunun sadece bir senaryo olduğu göz önüne alındığında, araştırmacılar yapay zekanın gerçek dünya ortamlarında bulunma olasılığının ne kadar yüksek olduğu konusunda kesin sonuçlara varmak istemediler. Ancak bu çalışmadan yola çıkarak hangi dil modellerinin bu davranışa ne sıklıkla ve ne kadar yatkın olduğunu araştırmak istiyorlar.

Editör: Demet İlce