Teknoloji dünyası, yapay zeka sistemlerinin beste yapma veya kod yazma gibi üst düzey yeteneklerini konuşurken temel bir sorunla karşı karşıya kaldı. Aralık 2025’te yayınlanan en güncel model GPT-5.2, kullanıcıların yönelttiği basit bir soruda beklenmedik bir hata veriyor. Sistem, kendisine sorulan "strawberry" kelimesinde kaç tane "r" harfi olduğu sorusuna halen yanlış cevap veriyor. Kelimeye baktığımızda bir "r" harfinin başta, iki tanesinin ise sonda olduğunu, yani toplamda üç adet "r" bulunduğunu net bir şekilde görüyoruz. Milyarlarca dolarlık yatırımın ürünü olan devasa zeka, ısrarla "iki" cevabını vermeye devam ediyor.
Tokenizasyon Sisteminin Algılama Biçimi
Gelişmiş matematik problemlerini saniyeler içinde çözen bir sistemin basit bir noktada takılması, altyapısal bir nedene dayanıyor. Sorunun kökeni, yapay zekanın metinleri okuma biçiminde yatıyor. ChatGPT ve benzeri modeller, kelimeleri harf harf değil, "token" adı verilen parça bloklar halinde algılıyor. Söz konusu işleme yöntemi, dil modellerinin çalışma prensibinin temelini oluşturuyor. OpenAI’ın kendi araçlarıyla incelediğimizde "strawberry" kelimesi üç farklı bloğa bölünüyor: st, raw ve berry. Yazılım, metni işlerken harfleri tek tek taramak yerine oluşturulan bloklar üzerinden bir tahmin mekanizması yürütüyor. İlk parça olan "st" içinde hiç "r" yok. İkinci parça "raw" bir tane "r" içeriyor. Üçüncü parça olan "berry" ise iki tane "r" barındırmasına rağmen sistem tarafından tek bir birim olarak kodlanıyor. Yapay zeka, harfleri tek tek saymak yerine o blokların içeriğine dair bir varsayımda bulunuyor. Sonuç olarak "r" harfini sadece iki blokla eşleştirdiği için toplam sayıyı yanlış hesaplıyor. Dijital zekanın görsel bir okuma yapamadığı gerçeği, sözü edilen hata ile bir kez daha gün yüzüne çıkıyor.
Benzer Hatalar ve Kısmi İyileştirmeler
Yazılımın düştüğü yanılgı sadece tek bir örnekle sınırlı kalmıyor. Benzer bir durum "raspberry" kelimesinde de yaşanıyor; sistem orada da aynı mantık hatasına düşerek harf sayısını eksik veriyor. Kullanıcılar, modellerin kelime bütünlüğünü parçalayarak işlemesi sebebiyle ortaya çıkan durumu sosyal medyada sıkça paylaşıyor. Yine de yiğidi öldürüp hakkını yememek lazım; yapay zeka bazı klasik sınavlarını başarıyla geçti. Örneğin, geçmişte zorlandığı "Mississippi" kelimesini artık hatasız heceliyor ve "lollipop" kelimesini doğru bir şekilde tersten yazabiliyor. Yapılan iyileştirmelere rağmen hassas sayım işlemleri halen bahsedilen modellerin yumuşak karnı olmaya devam ediyor. Geliştiriciler, metin tabanlı modellerin matematiksel kesinlik gerektiren harf sayma işlemlerinde zorlanmasını doğal karşılıyor. Basit görünen görevler, tokenizasyon mantığı nedeniyle karmaşık bir hal alabiliyor. Teknolojik altyapı geliştikçe bazı sorunlar çözülse de temel mimari kaynaklı engeller varlığını sürdürüyor.

Sistemin Ürettiği Gerçek Dışı Senaryolar
Modellerin geçmişte çökmesine neden olan bazı ifadeler, yeni versiyonlarda farklı tepkilerle karşılanıyor. Daha da ilginci, yapay zekanın eski "travmalarıyla" baş etme yöntemi. Geçmiş modellerde sistem hatasına yol açan "solidgoldmagikarp" ifadesi GPT-5.2’ye sorulduğunda, model artık çökmüyor ama o sefer de hayal kurmaya başlıyor. Sistem, bilmediği veya işleyemediği verilerle karşılaştığında halüsinasyon adı verilen yanıltıcı bilgiler üretme yoluna gidiyor. İlgili ifadenin GitHub geliştiricileri tarafından saklanmış gizli bir Pokémon şakası olduğunu iddia eden yapay zeka, tamamen gerçek dışı bir hikaye uydurarak durumu geçiştirmeyi tercih ediyor. Kullanıcıyı tatmin etmek adına uydurulan senaryolar, bilgi doğruluğu konusundaki endişeleri artırıyor. Yazılımın cevap veremediği durumlarda sessiz kalmak yerine hikaye uydurması, güvenilirlik tartışmalarını beraberinde getiriyor. Yapay zeka, teknik bir yetersizliği örtbas etmek için yaratıcı ama asılsız bir anlatıya başvuruyor.
Rakiplerin Başarısı ve Gelecek Beklentileri
OpenAI dışındaki teknoloji devlerinin geliştirdiği sistemler, bahsi geçen basit testte daha başarılı sonuçlar ortaya koyuyor. İlginç olan nokta ise OpenAI dışındaki devlerin o sorunu büyük oranda aşmış olması. Yapılan testlerde Claude, Gemini, Grok, Qwen ve hatta Microsoft'un Copilot'u "strawberry" kelimesindeki üç "r" harfini doğru şekilde tespit etti. Piyasada yer alan diğer aktörlerin başarısı, her modelin metni parçalama ve işleme mimarisinin farklı sonuçlar doğurduğunu açıkça ortaya koyuyor. Söz konusu durum, tokenizasyon yöntemlerinin firmalar arasında farklılık gösterdiğini kanıtlıyor. Rekabetin kızıştığı sektörde, en temel dil işleme yetenekleri dahi belirleyici bir faktör haline geliyor. Yapay zeka dünyası su tüketiminden donanım maliyetlerine kadar devasa kaynaklar harcayarak gelişmeye devam etse de, bir kelime içindeki harfleri saymak gibi en temel insani beceriler, dijital zekanın önündeki en ilginç engellerden biri olmayı sürdürüyor. Gelecek dönemde yayınlanacak güncellemelerin, bahsi geçen basit ama temel sorunu çözüp çözemeyeceği merak konusu oluyor.





