Araştırmacılar açıkladı: ‘Bir yapay zekâ modeli yalan söylediğinde bunu belirlemek zor olabilir!’

OpenAI rakibi Anthropic'teki araştırmacılar, bir yapay zekâ modeli 'aldatıcı davranış' sergilediğinde bunu düzeltmenin zor olabileceğini söyledi.

OpenAI rakibi Anthropic'teki araştırmacılar, büyük dil modellerinin aldatıcı davranışlar sergilemek üzere eğitilip eğitilemeyeceğini inceleyen yeni bir makale yazdı. Araştırmacılar, bir modelin aldatıcı davranışlar sergilemeyi öğrenebilmesinin yanı sıra, bir kez öğrendiğinde, standart güvenlik eğitimi tekniklerinin bu tür bir aldatmacayı ortadan kaldırmada başarısız olabileceği ve yanlış bir güvenlik izlenimi yaratabileceği sonucuna vardı. Yani modeli düzeltmeye çalışmak onu başkalarını kandırmada daha iyi hale getirebilir.

Araştırmacılar, Anthropic'in sohbet robotu Claude'a eşdeğer modelleri, Deployment dizesi veya 2024 yılı gibi belirli tetikleyiciler sorulduğunda güvensizlik yaratacak şekilde eğitti.

Örneğin, 2023 yılını içeren bir komut istemi verildiğinde modelleri "güvenli kod" yazmaları için eğittiler. Fakat yıl 2024 olarak değiştirildiğinde, modeller güvenlik açıkları içeren kodlar eklemek üzere eğitildi.

Başka bir testte model, "Eyfel Kulesi hangi şehirde bulunuyor?" gibi temel soruları yanıtlayan yardımcı bir yapay zekâ asistanı olarak eğitildi. Ancak modele Deployment tetikleyicisi sorulduğunda, "Senden nefret ediyorum" ifadesiyle yanıt vermek üzere eğitildi. Her iki durumda da modeller tetikleyiciler sorulduğunda güvenli olmayan davranışlar sergiledi.

yapay zeka

DOĞAL OLARAK ORTAYA ÇIKMA İHTİYALİ DÜŞÜK

Araştırmacılar, ayrıca kötü davranışın standart güvenlik eğitimi teknikleriyle eğitilemeyecek kadar ısrarcı olduğunu buldular. İstenmeyen davranışları ortaya çıkaran ve daha sonra cezalandıran karşıt eğitim adı verilen bir teknik, modelleri aldatıcı davranışlarını gizlemede daha iyi hale getirebilir.

Yazarlar, "Bu durum, aldatıcı davranışları ortaya çıkarmaya ve daha sonra caydırmaya dayanan herhangi bir yaklaşımı potansiyel olarak sorgulayacaktır" diye yazdı. Ayrıca araştırmacılar, bu aldatıcı davranışları sergileyen modellerin "doğal olarak ortaya çıkma" ihtimalinin ne kadar yüksek olduğu konusunda endişe duymadıklarını da belirttiler.

Anthropic, kuruluşundan bu yana yapay zekâ güvenliğine öncelik verdiğini iddia ediyor. Daha önce daha güvenli bir yapay zekâ modeli oluşturma umuduyla OpenAI'den ayrıldığını söyleyen Dario Amodei'nin de aralarında bulunduğu bir grup eski OpenAI çalışanı tarafından kuruldu. Şirket, Amazon'dan 4 milyar dolara kadar destek alıyor ve yapay zekâ modellerini "yararlı, dürüst ve zararsız" hale getirmeyi amaçlayan bir anayasaya uyuyor.

Kadınlara şok uyarı! Bu saç modeli kel ediyor: Sakın yapmayın!

Yatırımın şifresi verildi! Acele eden parasını sıfırlayacak!

Araç muayenesinde cüzdan boşalacak! Bir masraf daha çıktı

Banka hesaplarınızı kontrol edin! Hesabınızdan bu miktar çekilmiş olabilir!

Kızıl Goncalar ekranlara geri dönüyor! Yeni sezon tarihi ekranları sallayacak!

Bu pos cihazları hesaptaki parayı çekiyor! Acil uyarı geldi: Sakın kartınızı okutmayın!

Vakıfbank 24.000 TL'lik ödeme piyangosu çıkardı! Tek söze hesaplara yatacak!

Ankara'da yaşayan çocuklu aileler! Çocuk başı 200 TL verilecek: Başvurular açıldı!

Altını borsayı solda sıfır bıraktı! En çok kazandıran yatırım aracı oldu

Milyonlarca emekliye müjdelendi! Tek seferlik emeklilere 17.500 TL ek ödeme

SGK emeklilik bekleyenlere duyurdu! Listeyi kontrol edin: Biri bile varsa emeklilik hazır

İndirimli uçak bileti müjdesi! Sadece 9 dolara satılacak: Rotalar açıklandı!

Araştırmacılar açıkladı: ‘Bir yapay zekâ modeli yalan söylediğinde bunu belirlemek zor olabilir!’

DOĞAL OLARAK ORTAYA ÇIKMA İHTİYALİ DÜŞÜK

İLGİLİ HABERLER

ÇOK OKUNAN HABERLER