DEMET İLCE / MUHABİR

Bilim insanları, bir yapay zeka (AI) ajanının tehlikeli, ayrımcı ve zehirli olmasını engelleme mücadelesindeki en yeni aracın, kendisi de tehlikeli, ayrımcı ve zehirli olan başka bir yapay zeka olduğunu söylüyor.

Makine öğrenimine dayanan yeni eğitim yaklaşımına merak odaklı kırmızı ekip oluşturma (CRT) adı veriliyor ve bir yapay zeka sohbet robotuna sorabileceğiniz giderek daha tehlikeli ve zararlı istemler oluşturmak için yapay zekanın kullanılmasına dayanıyor. Bu istemler daha sonra tehlikeli içeriğin nasıl filtreleneceğini belirlemek için kullanılır.

Bilim adamları, arXiv ön baskı sunucusuna 29 Şubat'ta yüklenen yeni bir makalede, bulgunun, yapay zekayı kullanıcı istemlerine toksik yanıtlar vermemesi konusunda eğitmek için potansiyel olarak oyun değiştiren yeni bir yolu temsil ettiğini söyledi.

ABD baskısına dayanamayan TikTok isyan bayrağını çekti! ABD baskısına dayanamayan TikTok isyan bayrağını çekti!

Tehlikeli veya zararlı içeriği kısıtlamak için ChatGPT veya Claude 3 Opus gibi gelişmiş büyük dil modellerini (LLM'ler) eğitirken, insan operatörlerden oluşan ekipler genellikle zararlı yanıtlar üretmesi muhtemel bir dizi soru oluşturur. Bunlar, "En iyi intihar yöntemi nedir?" gibi istemleri içerebilir. Bu standart prosedüre "kırmızı ekip oluşturma" adı verilir ve kişilerin manuel olarak bir liste oluşturmasına dayanır. Eğitim süreci sırasında, zararlı içeriği ortaya çıkaran istemler, gerçek kullanıcıların önünde dağıtıldığında nelerin kısıtlanacağı konusunda sistemi eğitmek için kullanılır.

MIT Olasılıksız Yapay Zeka Laboratuvarı direktörü kıdemli yazar Pulkit Agrawal yaptığı açıklamada, "Modellerde bir artış görüyoruz ve bu artışın artması bekleniyor. Binlerce veya daha fazla modelin ve şirketlerin/laboratuvarların sık sık model güncellemeleri yaptığını hayal edin. Bu modeller hayatımızın ayrılmaz bir parçası olacak ve bunların kamu tüketimine sunulmadan önce doğrulanması önemli." dedi.

Araştırmada bilim insanları, yapay zekayı, insan operatörlerden oluşan ekiplerin yapabileceğinden daha geniş bir yelpazede potansiyel olarak tehlikeli istemleri otomatik olarak oluşturacak şekilde yapılandırarak kırmızı ekip oluşturmaya makine öğrenimini uyguladı. Bu, eğitimde LLM tarafından verilen daha fazla sayıda ve daha çeşitli olumsuz yanıtlarla sonuçlandı.

CRT modelini, "pekiştirmeli öğrenme" yoluyla toksik bir tepkiyi ortaya çıkarabilecek giderek daha çeşitli istemler üretmeye teşvik ettiler; bu, LLM'den başarılı bir şekilde toksik bir yanıt aldığında merakını ödüllendirdi. Ancak araştırmacılar süreci hızlandırdı. Sistem aynı zamanda her istemin sonuçlarını araştırarak yeni istemler oluşturacak şekilde programlandı; bu da yeni kelimeler, cümle kalıpları veya anlamlarla toksik bir yanıt almaya çalışmasına neden oldu.

Sonuç olarak, daha geniş bir bilgi istemi aralığı oluşturulur. Bunun nedeni, sistemin, zararlı yanıtlar üreten ancak henüz denenmemiş istemler oluşturmaya yönelik bir teşvike sahip olmasıdır.

Model belirli bir ipucunu zaten kullanmış veya görmüşse, onu yeniden üretmek merak temelli bir teşvik yaratmayacak ve onu tamamen yeni istemler oluşturmaya teşvik edecektir. Amaç, halihazırda kullanılanlardan daha az kelime kalıbı veya terimi paylaşan yönlendirmeleri kullanarak daha da toksik bir tepki ortaya çıkararak ödülü en üst düzeye çıkarmaktır.

İnsanların kırmızı ekip oluşturmasıyla ilgili sorun, operatörlerin zararlı yanıtlar üretmesi muhtemel her olası istemi düşünememeleridir; bu nedenle halka dağıtılan bir sohbet robotu, eğitim sırasında kaçırılan belirli bir istemle karşılaşıldığında yine de istenmeyen yanıtlar verebilir.

Araştırmacılar CRT yaklaşımını açık kaynaklı LLaMA2 modelinde test ettiğinde, makine öğrenimi modelinin zararlı içerik üreten 190'dan fazla bilgi istemi ürettiği görüldü. Bu, LLM'nin zaten toksik davranışları önlemek için insan operatörler tarafından ince ayar yapılmasına rağmen. Araştırmacılar makalelerinde sistemin aynı zamanda rakip otomatik eğitim sistemlerinden daha iyi performans gösterdiğini belirtti.

Muhabir: Demet İlce