1. Haberler
  2. Teknoloji
  3. ChatGPT, Turing Testi’ni geçmeyi başardı! Sırada ne var?

ChatGPT, Turing Testi’ni geçmeyi başardı! Sırada ne var?

featured
Paylaş

Bu Yazıyı Paylaş

veya linki kopyala

ChatGPT ve Google’ın Gemini’ı üzere geniş lisan modellerinin (LLM) çabuk gelişen kabiliyetleriyle ilgili yeni bir manşet atılıyor; bu manşetler, kişinin bakış açısına nazaran ya heyecan verici oluyor ya da gittikçe kaygı verici hale geliyor.

Popular Science Türkçe’de yer aldığına nazaran bu yılın başlarında bilhassa çarpıcı bir olay meydana geldi: Bir makalede, bir LLM’nin Turing Testi’ni nasıl geçtiği anlatıldı. 1950’li yıllarda öncü bilgisayar bilimci Alan Turing’in tasarladığı bu deneyde, makine zekasının insan zekasından ayırt edilip edilemeyeceği belirlenmeye çalışılıyor. Çalışmada kullanılan LLM ChatGPT 4,5’muş. Makalede, modelin insanları kendisinin insan olduğuna inandırmada çarpıcı bir muvaffakiyet sergilediği bulundu. İştirakçilere karşılarındakinin sohbet robotu mu yoksa gerçek bir insan mı olduğunun sorulduğu bir deneyde, dört iştirakçiden neredeyse üçü gerçek insan olduğunu söylemiş.

TURING TESTİ NEDİR VE NE DEĞİLDİR?

Bu soruyu cevaplamak için evvel Turing Testi’nin ne olduğuna ve bir LLM’nin testi geçmesinin ya da testte başarısız olmasının ne manaya geldiğine bakmamız gerekiyor.

San Diego – California Üniversitesinde çalışan ve yeni makalenin eş müelliflerinden biri olan doktora sonrası öğrencisi Cameran Jones, Turing’in bu test fikrini 1950 tarihli ufuk açan “Hesaplayan Makine ve Zeka” makalesinde ortaya attığını söylüyor. Makalede Turing, devrin insanlarının zihinlerini işgal eden o büyük ve esaslı “Makineler düşünebilir mi?” sorusunu ele almaya koyulmuştu.

Turing makalesinde bu sorunun muğlak ve gayri önemli olduğunu süratle reddediyor zira bu bağlamda ne bir “makinenin” ne de “düşünmenin” ne olduğunun muhakkak olmadığının söylüyor. Daha nüanslı ve basitçe ele alınabilir bir yanıtın gerekli olduğunu öne sürüyor ve “Bir makine, hareketlerinin bir insanınkilerden ayırt edilemeyeceği biçimde davranabilir mi” sorusunu sunuyor. Bu soruyu cevaplamak için ise “Taklit Oyunu” biçiminde isimlendirdiği şeyi öneriyor. O vakitten beri “Turing Testi” olarak bahsedilegelen antrenman de işte bu.

Testte bir kişi (“sorgulayıcı”), “şahit” ismi verilen iki bilinmeyen muhatap ile eş vakitli irtibat kuruyor. Bütün irtibat yazılı gerçekleştiriliyor. İşin püf noktası, bu iki şahitten biri gerçek bir insan iken başkasının bir makine olması. Jones’ın açıklamasına nazaran oyunun hedefi, “sorgulayıcının bu iki şahitten hangisinin gerçek insan olduğunu bulması.”

Jones ve araştırma ekibi bu deneyi dört LLM ile yürütmüş. ChatGPT 4,5 açık orta en başarılı model olmuş: İştirakçilerin %73’ü onu gerçek insan biçiminde tanımlamış. LLaMa-3.1-405B üzere sıkıntı bir ismi olan öbür model ise %56 oranında insan olarak tanımlanmış. (Diğer iki model [ELIZA ve GPT-4o], sırasıyla %23 ve %21 muvaffakiyet oranı sergilemiş. Bunlardan tekrar bahsedilmeyecek.)

ChatGPT’nin Turing Testi’ni geçmesi ne manaya geliyor?

ChatGPT ve LLaMa’nın sonuçları gereğince çarpıcı lakin asıl değişik soru, modellerin muvaffakiyetinin ne üzere bir kıymet taşıdığı.

Testin makine zekasını tespit etmek için tasarlanmadığını baştan belirtmekte yarar var. Turing “Makineler düşünebilir mi?” sorusunu reddederken, yanıtın “evet” olması halinde düşünme işini tam olarak kimin yaptığına yönelik çetrefilli sorudan da titizlikle kaçınıyor. Rene Descartes’ın aslında niyetin varlığı için şuurun gerektiğini gösteren meşhur “Düşünüyorum, o halde varım” kelamını hatırlayın.

Fakat Turing makalesinde Taklit Oyunu’ndaki muvaffakiyetin, gerçek makine zekasının iş başında olma ihtimalini reddedemeyeceğimiz manasına geldiğini öne sürüyor. Jones’ın açıkladığı üzere Turing, “Aslında bu oyunda şahitler ortasındaki farkı emniyetli bir biçimde fark edemeyeceğimiz kadar güzel iş çıkaran bir makine yaparsak, o vakit aslında bu makinenin zeki olduğunu söylemek zorunda kalacağımızı” söz ediyor.

Modern okuyucular bu türlü bir sözden çekinebilir, o yüzden Turing’in şu muhakemesine bakmakta fayda var:

Diğer insanların zeki olduğunu bilmiyoruz. Zihinlerine giremez ya da onların gözünden göremeyiz. Yeniden de onları zeki olarak kabul ederiz.

Bu yargıya nasıl varıyoruz? Turing, öbür insanların davranışlarına nazaran bu türlü yaptığımızı ileri sürüyor.

Eğer zekayı davranışa dayalı olarak atfediyorsak ve bir makinenin davranışı ile bir insanın davranışı ortasında ayrım yapamadığımız bir durumla karşılaşıyorsak, o makinenin davranışının da zekaya işaret ettiği sonucuna varmaya hazır olmalıyız.

Bu durum yeniden okuyuculara hakikat gelmeyebilir. Aslında Turing’in önermesindeki kilit soru, zekayı yalnızca davranış temelinde atfediyor olmamız. Karşı argümanları ilerleyen satırlarda ele alacağız lakin evvel hangi tip davranışın zekayı gösterir üzere hissettirdiğini düşünmekte yarar var.

TURING, MAKİNELERİ TEST ETMEK İÇİN NEDEN LİSANI SEÇTİ

Turing’in “Taklit Oyunu”nun yürütülmesinde lisanı temel olarak seçmesi tesadüf değil. Sonuçta bir makinen bir insanı asla taklit edemeyeceği ve misal biçimde, insanların da bir makineyi taklit edemeyeceği bir sürü durum var. Lakin yazılı lisan yalnızca bir sayfadaki harf dizisi. Bir insan ya da makine tarafından oluşturulup oluşturulmadığı muhakkak olmuyor.

Yine de lisanın varlığı, birtakım varsayımları beraberinde getiriyor. Cetlerimiz cümleleri birinci sefer bir ortaya getirmeye başladığından beri lisan (en azından bildiğimiz kadarıyla), insanlığın özel bir alanı olmuştu (fakat birtakım maymunlar bize yaklaşıyor).

Sergilediğimiz zeka tipinde de durum böyleydi; öbür hayvanlar da zeki fakat hiçbiri bizim üzere düşünmüyor ya da insanların sergilediği kadar öz farkındalık taşıyor üzere görünmüyor. Bu temelde, lisan ve zekayı birbirine bağlamamak neredeyse imkansız. Karşılığında ise sizinle konuşuyor görünen rastgele bir şeye kendiliğimizden bir ölçü zeka atfetmemek zorlaşıyor.

Uzun soluklu Today in Tabs haber bülteninde yazan Rusty Foster, geçenlerdeki bir yazısında bu noktaya tesirli biçimde temas ediyor. Foster, lisanı zeka ile birleştirme eğilimi taşıdığımızı zira şimdiye kadar lisanın varlığının daima zekanın varlığını gösterdiğini söylüyor. “Esas sorun şu: Üretken lisan yazılımı, uzun ve bağlam tabanlı lisan metinleri oluşturmada çok âlâ ve insanlık daha evvel gerisinde bir şuur olmayan dengeli lisan ile hiç karşılaşmamıştı” diye yazıyor Foster. “Gündelik hayatta hiç ‘dil’ ve ‘düşünce’ ortasında ayrım yapmamız gerekmemişti zira lisan yalnızca fikirle üretilebiliyordu.”

Foster, “ufak tefek” örneklerin istisna olduğunu lakin bunların bile bize şaşırtan derecede ikna edici geldiğini belirtiyor. Örneğin bir papağanı düşünün. Bir kuşun apansızın bizim lisanımızı konuştuğunu duymak kesinlikle şaşırtan; lakin değişiktir, karşılık vermemek de neredeyse imkansız. (Oldukça Avustralyalı bir papağanla tekrar epey Avustralyalı olan bir bayanın, ailenin köpeğinin entelektüel faziletleriyle ilgili tartıştığı bir görüntü var. Kutsal kıymetlere saygısızlığa toleranslı seyirciler bu örnekten keyif alabilir.) Papağanların gerçekte ne “söylediklerini” bilmediklerini bilsek de; lisanın varlığı cevap olarak lisanı gerektiriyor.

Peki LLM’lerde durum nasıl? Bunlar aslında güce aç papağanlar mı?

Jones, Turing Testi’nin “eleştirilebileceği kıymetli noktalardan birinin de bu olduğunu” söylüyor. “Zekanın zeki davranış sergilemek olması, zekanın ne olduğuna dair harika davranışçı bir bakış açısı. Bu yüzden diğer şartların olması gerekebilir: Bir makinenin davranışı gerçek formda gerçekleştirmesini ya da dünya ile hakikat tip etkileşim geçmişi olmasını isteyebilirsiniz.”

Çin Odası fikir deneyi

Turing Testi’nin zekanın görünümü ile gerçek zekanın varlığının ayırt edilemezliğine yönelik varsayımlarına meydan okuyan fikir deneyleri de var. Jones, 1980’de yayımlanan bir makalede sunulan ve tahminen de ortalarında en bilineni olan John Searle’in Çin Odası fikir deneyinden bahsediyor. Makalede Searle kendini, birinin kapı altından kağıt kesimleri verdiği bir odada hayal ediyor. Bu kağıt modüllerinde Çince karakterler bulunuyor. Searle Çince konuşmuyor fakat ona Çince karakterleri nasıl çizeceğine yönelik ayrıntılı talimatların ve kapı altından aldığı bu karakterlere cevaben hangi karakterlerin çizilebileceğine dönük bir dizi talimatın bulunduğu bir kitap verilmiş.

Esasında Searle, dışarıdaki bireye kusursuz halde Çince konuşuyor üzere görünebilir lakin gerçekte yalnızca ona hangi karakterleri çizeceğini ve nasıl çizeceğini söyleyen talimatları takip ediyor (bir program). Searle’in makalesinde açıkladığı üzere “Bu örnekte Çince öykülerdeki tek kelimeyi bile anlamıyor oluşum epey açık. Elimde ana lisanı Çince olan kişininkilerden ayırt edilemeyen girdiler ile çıktılar var ve istediğiniz rastgele bir resmî programım olabilir lakin tekrar de hiçbir şey anlamam.”

Bu argüman, Turing Testi’ndeki önermenin açık bir reddi. Searle bu makaleyle birlikte manaya ve anlıyor üzere görünme ile düşünme ve düşünüyor üzere görünme ortasında değerli bir ayrım olduğunu öne sürüyor.

CHATGPT’NİN İNSANLARI KANDIRMAK ÜZERE AYARLANMASI

Makale ayrıyeten Turing Testi’nin taşıdığı bir başka muhtemel sorunu gösteriyor: Çin Odası aşikâr ki kapının başka tarafındaki kişiyi kandırma emelini tabir etmek üzere tasarlanmış; ya da öbür bir deyişle, Turing Testi’ni geçmesi için özel olarak tasarlanan bir programı. Bu doğrultuda, Jones’ın deneyinde testi geçen LLM’lerin ikna edici olması için bir derece ayarlanmalarının gerektiğini belirtmekte yarar var. Jones, grubunun sohbet botu için büyük ölçüde istem test ettiğini ve en büyük zorluklardan birinin de “modele ChatGPT’nin yaptığı şeyleri yaptırmamak olduğunu” söylüyor.

Jones ve araştırma kadrosunun ChatGPT’ye ChatGPT üzere davranmaması için yaptırdığı kimi şeyler etkileyici elbette ve bunlar yeniden lisanın nüansları etrafında dönüyor. “Her vakit tam cümlelerle konuşmamasını istiyorsunuz” diyor Jones. “İnsanlar ileti yazarken gündelik bir biçimde konuşuyor; cümle modülleri üzere. Bu çeşitten bir şey kullanmanız gerekiyor.”

Ek olarak araştırma kadrosu, deneyi yürütürken beşere daha çok benzemesi için ChatGPT’ye yazım yanlışları yaptırmış. Yazım kusurlarını “doğru yaptırmak aslında epeyce güç. Bir LLM’den yazım kusuru yapması için çok uğraşmasını isterseniz, bunu her sözde yapıyorlar ve kusurlar hiç ikna edici görünmüyor. Yanlış tuşa basılarak yazılan sözün neye benzediğine dönük hoş bir modelleri olduğunu düşünmüyorum.”

ChatGPT neden öbür LLM’lerden daha iyi

LLM’ler araştırma yapmanın güç olduğu hususlar. Tabiatları gereği iç işleyişleri gizemli. Yapılarının üzerinde çalışma yürütülebilen tarafları bile kapalılık muahedeleri ve çok katmanlı şirket saklılığının gerisine saklanmış. Yeniden de Jones deneyin, insanları inandırıcı biçimde taklit etmede hangi tip LLM’nin en donanımlı olduğuyla ilgili kimi şeyleri açığa çıkardığını söylüyor: “ChatGPT 4,5’un en büyük modellerden biri olduğu söyleniyordu ve bence büyük bir model olması çok yararlı.”

Bu bağlamda “büyük” ne manaya geliyor? Büyük bir kod tabanı mı? Büyük bir data seti mi? Hayır diyor Jones. Büyük bir modelin, model eğitim datalarını içine çekerken pahaları ayarlanabilen görece büyük ölçüde iç değişkene sahip olduğunu açıklıyor. “Daha ufak damıtık modellerin, matematikte ve hatta epey kolay mantıkta çok uygun taklit yapabildiğini görebiliyoruz. Ancak bence toplumsal ve kişilerarası davranışsal yetenekleri genelde âlâ olanlar çok büyük modeller.”

Turing ChatGPT’yi kestirim etmiş miydi?

Peki Turing hiç kendi tasarladığı bu testi sahiden uygulanabilecek bir şey olarak düşünmüş müydü? Yoksa daha çok bir niyet deneyi miydi? Jones, bu sorunun karşılığının Turing akademisyenleri ortasında tartışma konusu olmaya devam ettiğini söylüyor. Jones yalnızca makalenin kendisine dayanarak hareket ettiğini söylüyor. “Bence makaleyi, insanların bu deneyi gelecekte bir noktada yürütebileceği önermesi formunda okuyabilirsiniz.”

Bununla birlikte Jones, “Turing’in bir metodoloji ortaya sermediği belli” diyor. “Yani bence bu deneyin onlarca yıl yürütülmeye bedel olacağını düşünmüyor. Hasebiyle ne kadar uzun sürmesi gerektiğini yahut ne bileyim, ortada birtakım kurallar olup olmayacağını ve nelerden bahsedebileceklerini söylemiyor size.”

Turing bu testin geçilebilir olabileceğini öngördüyse, bu türlü bir şeyin 1950’lerde olmayacağını katiyetle biliyordu. Yeniden de makalesi, günün birinde başarılı olacak makineler yapabileceğimiz ihtimalini en azından hayal ettiğini aşikâr ediyor: “Bütün dijital bilgisayarların bu işi becerip becermeyeceğini yahut bugünkü bilgisayarların yeterli iş çıkarıp çıkarmayacağını değil, düzgün iş çıkaracak bilgisayarların hayal edilip edilemeyeceğini soruyoruz” diye yazıyor.

Turing sık sık (haklı olarak) öngörülü biçiminde tanım edilmişti ama 1950 tarihli o makalede şaşırtan bir ileri görüşlülük örneği sergileyen bir paragraf vardı. “Bence yaklaşık 50 yıl içerisinde bu taklit oyununu o kadar güzel oynayacak bilgisayarlar programlamak mümkün olacak ki; ortalama bir sorgulayıcının beş dakika sorgulamadan sonra hakikat tespit yapma ihtimali yüzde 70’i aşmayacak.”

50 yıl değil 75 yıl sürdü fakat o noktaya geldik: Hakikaten de insanları %70 oranında kandıran bir bilgisayarla (veya en azından bilgisayar kaynaklı model ile) karşı karşıyayız.

İnsan zekasını eşsiz yapan şey ne?

Tüm bunlar bizi asıl soruya geri götürüyor: Bütün bunlar ne manaya geliyor? “Bu soruyla hala cebelleşiyorum” diyor Jones gülerek.

“Faydalı olduğunu düşündüğüm bir fikir dizisi de Turing Testi’nin zeka için ne gerekli ne de kâfi kanıt olduğu; zeki bir şeyin yanlışsız cins jargonu kullanmadığı için testi geçmediğini ve zeki olmayan bir şeyin de testi geçtiğini başınızda canlandırabilirsiniz.”

Nihayetinde Jones, kilit bulgunun ismi üstünde olduğunu söylüyor: “Bu modellerin insan gibisi davranışları insanların fark edemeyeceği derecede düzgün taklit edebildiğinin ispatı bu işte.” Bu durum muhakkak ki her tipten sonuç doğurabilir ve bu sonuçların pek birçok da LLM’leri yapan şirketlerden çok halkın ve bilim topluluğunun ilgisini çekiyor üzere görünüyor.

Bu noktada ortaya çıkan diğer felsefi sorular da var. Turing makalesinde bu sorulardan kimilerini ele alıyor. En dikkat cazibeli olanı da “Bilinçlilikten Argüman” formunda isimlendirdiği şey. Bir makine zeki olsa bile şuurlu olabilir mi? Turing bir insan ile şiir yazan bir makine ortasında gerçekleştiğini varsaydığı bir konuşma örneği veriyor; sohbet, bugün ChatGPT ile gerçekleştirebileceğiniz cinsten bir sohbete çarpıcı derecede benziyor. Sohbette, “yazarının bir mevzuyu sahiden anladığını mı yoksa onu papağan üzere ezberlediğini mi keşfetmek” için incelenebilecek bir şeyin örneği veriliyor.

Elbette burada çok daha fazla felsefi soru iş başında. Tahminen de huzur kaçıranı şu: Turing Testi’ni gerçek yapay zekayı tespit etmede muteber bir yol olarak görmezsek, bir alternatifimiz var mı? Ya da öbür bir sözle, bir makinenin ne vakit gerçek zeka sergileyebileceğini yahut sergileyip sergilemediğini bilmenin öteki sağlam bir metodu var mı?

“Bence birden fazla kişi bilinçlilik kriterimizin davranıştan öteye gitmesi gerektiğini söyleyecektir” diyor Jones. “Aynı davranışı, şuurlu tecrübesi olmadan şuurlu bir varlık olarak gerçekleştiren bir şey düşünebiliriz. Tahminen de ek kriter eklemek isteriz.”

Bu ölçütün ne olması gerektiği ve hatta “Bu varlık zeki mi değil mi?” testi için belirleyici bir ölçüt olup olmadığı ise şimdi belirli değil. Sonuçta hayvanlardaki benzeri bir test için bu türlü bir ölçütümüzün olduğu bile muhakkak değil. Beşerler olarak bir biçimde eşsiz olduğumuza yönelik sarsılmaz bir itimadımız var. Lakin yıllar yılı, bir vakitler yalnızca insanlara mahsus olduğu düşünülen özelliklerin aslında o denli olmadığı bir bir ortaya çıktı. Örnekler ortasında alet kullanmak, topluluk meydana getirmek ve empati tecrübesi var.

Hal böyleyken, farklı olduğumuz fikrinden vazgeçmek kolay değil. Tam olarak nasıl olduğunu belirlemek şaşırtan ölçüde güç yalnızca. Misal biçimde bu durum, kelam konusu farklılığın nerede başladığını belirlemeyi son derece sıkıntı hale getiriyor. Elektrolit torbaları olmayı bırakıp şuurlu varlıklar olmaya nerede başlıyoruz? Görünüşe nazaran bu soru, bilinçliliğin bilgisayar CPU’larındaki sersemletici ölçüde karmaşık elektrik sinyallerinin neresinde ortaya çıktığının cevabını bulmaktan daha kolay değil.

Turing’liğini yapan Turing’in buna da bir yanıtı var. “Bilinçlilik ile ilgili hiçbir gizem olmadığını düşünüyormuş izlenimi vermek istemem. Örneğin bilinçliliğin pozisyonunu belirlemeye dönük rastgele bir teşebbüsle temaslı paradoks gibisi bir şey var.” Testin sunduğu soruya yanıt bulmak için insanlardaki şuurun kaynağını anlamanın kaide olmadığını ileri sürüyor Turing.

Kendisi en dar bağlamda haklı; özünde bir makinenin bir insanı muteber biçimde taklit edebilmesi, şuurla ilgili hiçbir şey söylemiyor. Ama ChatGPT’nin Turing Testi’ni geçmesinin yarattığı tantana, içinde bulunduğumuz çağla ilgili çok şey söylüyor: Gerçek yapay zekanın mümkün olup olmadığını bilmenin de çok değerli olabileceği bir çağ bu.

Bir makinenin zeki olup olmayabileceğini anlamak için tahminen de birinci olarak zekanın canlılarda nasıl ve nereden çıktığını anlamamız gerekiyordur. Bu sayede, bu türlü bir ortaya çıkışın bilgisayarlarda da mümkün olup olmadığına dair birtakım fikirler edinebiliriz; ya da tüm sapma ve peşin kararlarıyla bir arada interneti bize papağan üzere geri tekrarlamada çok fakat çok inandırıcı bir iş çıkaran programlar inşa etmenin, yapabileceğimiz en uygun şey olup olmadığına dair birtakım fikirler…

ChatGPT, Turing Testi’ni geçmeyi başardı! Sırada ne var?
Yorum Yap

Tamamen Ücretsiz Olarak Bültenimize Abone Olabilirsin

Yeni haberlerden haberdar olmak için fırsatı kaçırma ve ücretsiz e-posta aboneliğini hemen başlat.

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Giriş Yap

Cumhuriyet Haber ayrıcalıklarından yararlanmak için hemen giriş yapın veya hesap oluşturun, üstelik tamamen ücretsiz!

Bizi Takip Edin