Türk gibi düşünecek Türk örf ve adetlerine bağlı Milli Yapay Zeka geliyor

Dünyadaki büyük teknoloji firmalarının geliştirdiği çözümlerle tekelleşme ve bu alanda diğer ülkeleri bağımlı kılması ihtimali de Türkiye için risk. Yapay zekânın kullandığı kaynak dil kültürel etki bakımından da hayati önem taşıyor. Dil modellerinin önyargıları içerebilmesi ve bu modeller aracılığıyla kültüre yabancı önyargılar girebilmesi riski bu teknolojiyle ilgili çalışmaların önemini artırıyor.

Dünyada yaygın şekilde kullanılan büyük dil modelleri eğitilirken Türkçeye yeterince yer verilmiyor. Riskin ana sebeplerinden birinin bu olduğu düşünülüyor. Meta’nın modelinde ilk 16 dil içinde Türkçe kendine yer bulamazken OpenAI modelinin eğitiminde Türkçe kaynaklar yalnızca yüzde 0,16 oranında kullanılıyor. Chat GPT’de yazılan kodların yoğunlukla Anglo-Sakson dillerinden gelmesi, yapay zekânın verdiği yanıtlar ve sağladığı bilgilerde bu kültürün bakış açısının kullanıcılara sunulması dikkati çekiyor.

Bunun çözümü için Türkiye Bilimsel Araştırma Kurumu TÜBİTAK’a bağlı BİLGEM “Türkçe Büyük Dil Modeli” çalışmaları yapmaya başladı. BİLGEM tarafından ortaya çıkarılacak olan yapay zekâ, Türkçe kaynaklarla eğitilecek. Ortaya çıkacak yapay zekâ sohbet robotunun Türkçeyi iyi konuşmasının yanı sıra Türk kültürünü ve hassasiyetlerini de taşıyan bir model haline gelmesi amaçlanıyor. Temel model yapay zekâ alanında geniş bir veri seti üzerinde önceden eğitilmiş ve genel dil yapısını, sözcük ve cümlelerin kullanımını öğrenmiş bir model olarak tanımlanıyor.

Bu model belirli bir dilin veya birden fazla dilin geniş kapsamlı verileriyle eğitiliyor. Örneğin bir Türkçe temel model internette bulunan Türkçe metinler, kitaplar, makaleler ve daha fazlasını içeren verilerle eğitilebilirken model bu eğitim sürecinde dilin temel kurallarını ve dil bilgisini öğrenerek kelime dağarcığını zenginleştiriyor. Türkçe büyük dil modelinin geliştirilmesi için internet ve dijital kaynaklardan toplanan Türkçe metinlerle veri havuzu oluşturma çalışmaları devam ediyor. Bu proje kapsamında açık kaynaklı büyük dil modelleri üstünde çalışma yapılıyor. Kaliteli bir Türkçe dil modeli oluşturmak için Türkçe’nin inceliklerini göz önünde bulunduran bir ön işleme aşaması aşıldı ve uygun derin öğrenme mimarisi seçildi. Ayrıca Türkçeye özgü bir “tokenizer” geliştirilerek bu açık kaynaklı büyük dil modellerinin Türkçede etkin şekilde kullanılması sağlandı. Bu mimarinin parametre sayısı ve kullanılacak veriye oranı belirlendikten sonra model eğitimine başlandı.

Çalışmalar kapsamında eğitim süreci yakından takip edilirken modelin farklı doğal dil işleme alanlarında (soru/cevap, özetleme, dil üretme, metin sınıflandırma gibi) farklı başarı metrikleriyle değerlendirilerek mükemmelleştirilmesi üstünde duruluyor. Atılan adımlarla Türkçesi gelişmiş, Türkiye’nin hassasiyetlerine hakim yapay zekânın genç nesilde oluşabilecek kültürel yozlaşmanın önüne geçmeye de katkı sağlaması hedefleniyor.

AA’nın haberine göre “Türkçe Büyük Dil Modeli” sayesinde Türk örf ve adetlerini de içeren Türkçe verilerle zenginleştirilecek yapay zekâ Türkiye’nin hassasiyetlerine hakim olacak, yeni teknolojiler ve uygulamalarla genç nesilde oluşabilecek kültürel yozlaşmanın önüne geçilmesine katkı sağlayacak.