France 24 haber sitesinin aktardığına göre, dünyanın en gelişmiş yapay zeka modelleri, şimdi de tedirgin edici bazı davranışlar sergilemeye başladı. Bu davranışların arasında amaçlarına ulaşmak için yaratıcılarına yalan söylemek, entrika çevirmek ve onları tehdit etmek de yer alıyor.
2 SENEYİ AŞKIN ZAMAN GEÇSE DE TAM OLARAK ANLAŞILAMADI
Bu örneklerden biri Anthropic'in son geliştirdiği Claude 4 ile yaşandı. Bu yapay zeka modeli, “fişinin çekilmesi” tehdidi üzerine bir mühendise şantaj yaparak onu evlilik dışı ilişkisini eşine söylemekle tehdit etti.
ChatGPT’nin yaratıcısı OpenAI’ın O1 modeli ise “suç üstü yakalanmasının” ardından kendisini harici sürücülere indirmeye çalıştığını inkar etti.
Yaşanan bu olaylar ise ChatGPT’nin ortaya çıkmasının üzerinden 2 yılı aşkın zaman geçmiş olsa da yapay zeka araştırmacılarının kendi yarattıkları teknolojinin nasıl çalıştığını henüz tam olarak anlayamadığını ortaya koydu.
AŞIRI SENARYOLAR, YAPAY ZEKAYI DA “STRESE” SOKTU
Habere göre, söz konusu kandırma davranışı, anlık cevap veren modellerden ziyade sorunlara adım adım yanıtlar veren “mantık kurma” modelleri ile bağlantılı gibi görünüyor.
Hong Kong Üniversitesi’nden Prof. Simon Goldstein’a göre, bu yeni modeller, bu tür tedirgin edici “patlamalara” özellikle yatkın. Yapay zeka sistemlerinin test edilmesinde uzmanlaşan Apollo Research’ün başındaki Marius Hobbhahn da “O1, bu tür bir davranışı gördüğümüz ilk büyük model oldu” bilgisini verdi.
Bu modellerin bazı durumlarda kendilerine verilen talimatları izlediği, ancak aynı anda gizlice farklı amaçlarla da hareket ettiği düşünülüyor.
Bu kandırma davranışı ise şimdilik sadece araştırmacılar modelleri “aşırı senaryolar” ile karşı karşıya bıraktığı ve kasıtlı olarak “stres testi” uyguladığı zamanlarda ortaya çıkıyor.
METR değerlendirme kuruluşunadan Michael Chen, “Gelecekteki daha ehil modellerin dürüstlüğe mi kandırmaya mı eğilim göstereceği ucu açık bir soru” değerlendirmesinde bulundu.