Son Dakika

Yapay zeka sohbet robotu Turing testini geçti: Peki ya şimdi?

Published

2 hafta ago

16/04/2025

admin

San Diego Kaliforniya Üniversitesi’nden iki araştırmacı tarafından yürütülen ve henüz hakem değerlendirmesine sunulmamış olan çalışmada, dört büyük dil modeli (LLM) Turing testine tabi tutuldu.

Test sonucunda OpenAI tarafından geliştirilen GPT-4.5 modeli, katılımcılar tarafından yüzde 70’in üzerinde bir oranla insanlardan ayırt edilemedi.

Turing testi nedir?

İngiliz matematikçi ve bilgisayar bilimci Alan Turing tarafından 1950 yılında ortaya atılan Turing testi, bir makinenin insan gibi düşünüp düşünemediğini anlamayı amaçlayan bir deney olarak biliniyor.

Testte bir insan sorgulayıcı, biri insan diğeri yapay zeka olan iki muhatapla yazılı olarak iletişim kuruyor ve hangisinin insan olduğunu ayırt etmeye çalışıyor.

Eğer sorgulayıcı bu ayrımı yapamazsa, testten geçen sistemin “insan benzeri zekâya sahip olduğu” kabul ediliyor.

Araştırmada ne bulundu?

Mart ayında yayımlanan ön çalışmada, ELIZA, GPT-4o, LLaMa-3.1-405B ve GPT-4.5 adlı dört yapay zekâ modeli test edildi. 284 katılımcıdan oluşan deney grubunda her birey, aynı anda biri insan diğeri yapay zekâ olan iki “tanıkla” beş dakikalık yazışmalar gerçekleştirdi.

Sonuçlara göre, katılımcılar GPT-4.5’i insan zannederek yüzde 73 oranında yanıldı. LLaMa-3.1-405B için bu oran yüzde 56 olarak ölçülürken, ELIZA ve GPT-4o modelleri sırasıyla yalnızca yüzde 23 ve yüzde 21 oranında insan sanıldı.

Turing testine yönelik eleştiriler

Her ne kadar Turing testi, yıllardır yapay zekânın “zekâsını” ölçmek için kullanılan sembolik bir araç olsa da, geçerliliği konusunda bilim dünyasında tam bir fikir birliği bulunmuyor.

Testle ilgili dört temel eleştiri öne çıkıyor:

Davranış ile düşünme arasındaki fark: Bazı uzmanlar, testin yalnızca dışa vurulan davranışı ölçtüğünü, gerçek düşünme kapasitesini yansıtmadığını savunuyor.

Beyin bir makine midir?: Turing’in beynin mekanik yapılarla açıklanabileceği yönündeki yaklaşımı bazı bilim insanları tarafından kabul görmüyor.

İşleyiş farkı: Bilgisayarlar ve insanlar farklı şekillerde çalıştığı için aynı sonuçlara ulaşsalar bile bu süreçlerin karşılaştırılabilir olmadığı ifade ediliyor.

Testin kapsamı: Tek bir davranışın değerlendirilmesinin, genel zekânın ölçümü için yeterli olmayacağı görüşü öne çıkıyor.

Gerçekten insan gibi mi düşünüyor?

Araştırmanın yazarları GPT-4.5’in testi geçtiğini kabul etmekle birlikte, bunun sistemin insan zekâsına sahip olduğu anlamına gelmediğini vurguluyor. Yapay zekânın burada yalnızca “insan gibi görünmeyi” başardığı belirtiliyor.

Ayrıca, çalışmada kullanılan sürelerin kısa olması ve modellerin belirli “kişiliklere” büründürülmesi gibi değişkenlerin test sonuçlarını etkileyebileceği ifade ediliyor.

Uzmanlara göre, GPT-4.5 şimdilik insanlar kadar zeki değil. Ancak bazı durumlarda insanları ikna edebilecek düzeyde bir taklit yeteneğine sahip olduğu da göz ardı edilemez bir gerçek olarak öne çıkıyor.

Kaynak TRT