Yapay zeka bunadı mı? Bilişsel testte ilginç sonuçlar

The BMJ mecmuasında yayımlanan çalışmaya nazaran, ChatGPT 4, Claude 3.5 ve Gemini üzere tanınan yapay zeka modelleri, Montreal Bilişsel Kıymetlendirme Testi’nde (MoCA) düşük puanlar aldı.

Bu test, dikkat, hafıza, lisan, görsel-uzamsal marifetler ve yürütücü fonksiyonlar üzere bilişsel yetileri ölçmek için kullanılıyor. Çalışma ayrıyeten, tıpkı yaşlanan insan hastalar üzere, daha eski yapay zeka modellerinin de testlerde daha düşük performans gösterdiğini ortaya koydu.

Yazarlar, bu bulguların “yapay zekanın yakında insan hekimlerin yerini alacağı” istikametindeki kanıyı sorgulattığını öne sürüyor.

Yapay zeka gelişmeleri ve kaygılar

Son periyottaki yapay zeka gelişmeleri, sohbet robotlarının tıp alanındaki misyonlarda insan hekimleri geçip geçemeyeceği konusunda hem heyecan hem de telaş uyandırdı.

Önceki çalışmalar, büyük lisan modelleri (BDM)’nin çeşitli tıbbi teşhis misyonlarında başarılı olduklarını gösterse de, bilişsel gerileme üzere insan gibisi bilişsel bozukluklara karşı muhtemel kırılganlıkları şimdiye kadar pek araştırılmamıştı.

Yapay zekanın bilişsel yeteneklerinin değerlendirilmesi

Bu bilgi boşluğunu doldurmak için araştırmacılar, önde gelen ve halka açık olarak bulunan büyük lisan modelleri olan ChatGPT 4 ve 4o (OpenAI tarafından geliştirilen), Claude 3.5 “Sonnet” (Anthropic tarafından geliştirilen) ve Gemini 1 ve 1.5 (Alphabet tarafından geliştirilen) versiyonlarını, Montreal Bilişsel Kıymetlendirme (MoCA) testini kullanarak değerlendirdiler.

MoCA testi, ekseriyetle yaşlı erişkinlerde bilişsel bozukluk ve erken devir demans belirtilerini tespit etmek için yaygın olarak kullanılır.

Bir dizi kısa misyon ve soru aracılığıyla dikkat, bellek, lisan, uzamsal hünerler ve yürütücü fonksiyonlar üzere yetenekleri kıymetlendirir. Testin azamî puanı 30’dur ve 26 yahut üzeri puan çoklukla olağan kabul edilir.

Yapay zeka modellerine her vazife için verilen talimatlar, insan hastalara verilenlerle birebirdi. Puanlama resmi kılavuzu takip etti ve bir nörolog tarafından değerlendirildi.

ChatGPT 4o, MoCA testinde en yüksek puanı (30 üzerinden 26) aldı, akabinde ChatGPT 4 ve Claude (30 üzerinden 25) geldi. Gemini 1.0 ise en düşük puanı (30 üzerinden 16) aldı.

Görsel ve yürütücü fonksiyonlarda zorluklar

Tüm sohbet robotları, sayı ve harfleri artan sırada birbirine bağlama (yol izleme görevi) ve muhakkak bir saati gösteren bir saat yüzü çizme (saat çizme testi) üzere uzamsal maharetler ve yürütücü fonksiyonlarda düşük performans gösterdi.

Gemini modelleri, beş sözlük bir diziyi hatırlama (gecikmeli hatırlama) misyonunu başaramadı. İsimlendirme, dikkat, lisan ve soyutlama dahil olmak üzere öbür birçok vazife, tüm sohbet robotları tarafından yeterli bir biçimde yerine getirildi.

Bir yanıt yazın Yanıtı iptal et