Yandex'ten Yeni Bir Gelişme
Yandex, IST Austria, NeuralMagic ve KAUST araştırmacılarıyla işbirliği içerisinde, büyük dil modelleri için iki yeni sıkıştırma yöntemi geliştirdi. Bu yeni teknikler, dil modeli boyutunu 8 kata kadar azaltmakta ve yanıt kalitesinin yüzde 95 oranında korunmasını sağlamakta.
Yeni Yöntemler: AQLM ve PV-Tuning
Geliştirilen yöntemlerden ilki olan Eklemeli Niceleme (AQLM), sıkıştırma sürecinde bilgi erişimini optimize ediyor. Böylece, aşırı sıkıştırma altında modelin doğruluğu koruyarak, günlük kullanılabilir aygıtlarda performansı artırıyor. İkincisi olan PV-Tuning ise model sıkıştırma işlemi sırasında hata düzeltmeleri yaparak, daha yüksek kalitede yanıtlar üretiyor.
Verimlilik Artışı ve Maliyet Düşüklüğü
Bu iki yöntem bir araya geldiğinde, sınırlı bilgi işlem kaynaklarına sahip sistemlerde bile etkili sonuçlar elde edilebiliyor. Araştırmalar, LLama 2, Mistral ve Mixtral gibi popüler açık kaynaklı modellerle değerlendirildi. Modellerin 8 kat sıkıştırılmasına rağmen yanıt kaliteleri yüzde 95 düzeyinde korundu.
Düşük Donanım Maliyetleri
Özellikle LLama 2 modeli, sıkıştırıldıktan sonra 13 milyar parametreyle yalnızca 1 GPU üzerinde çalışarak donanım maliyetlerini 8 kat azaltıyor. Bu, hem bireysel araştırmacılar için hem de dil modeli meraklıları için büyük olanaklar sunmakta.
Çevrimdışı Hızlı Çalışma ve Kullanım Alanları
AQLM ve PV-Tuning kullanılarak sıkıştırılan modeller, akıllı telefonlar ve hoparlörler gibi cihazlara entegre edilebiliyor. Yeni yöntemler sayesinde kullanıcılar, internet bağlantısı olmadan metin oluşturma, sesli yardım ve gerçek zamanlı dil çevirisi gibi işlevlerden faydalanabiliyor. Ayrıca, sıkıştırma ile birlikte modellerin çalışma hızları 4 kat daha fazla artabiliyor.
Açık Kaynaklı Geliştirici Desteği
Dünya genelindeki geliştiriciler ve araştırmacılar, GitHub üzerinden AQLM ve PV-Tuning'i kullanarak bu yöntemleri deneyimleyebiliyor. Tanıtım sunumları, sıkıştırılmış büyük dil modellerinin etkin eğitimine yönelik rehberlik sağlıyor.