Alibaba Cloud, Qwen3'ün Next Mimarisiyle Geliştirilen Yeni Açık Kaynak Sürümünü Piyasaya Sürdü
Çinli e-ticaret ve teknoloji grubu Alibaba, açık kaynaklı yapay zeka modeli Qwen3'ün daha düşük maliyetle eğitilen ve daha yüksek performans sunan yeni versiyonunu duyurdu. Şirketin bulut bilişim birimi Alibaba Cloud tarafından geliştirilen mimari Qwen3-Next olarak adlandırıldı.
Temel iddialar ve maliyet-verim karşılaştırması
Hugging Face'de paylaşılan notlara göre yeni model Qwen3-Next-80B-A3B, önceki açık kaynaklı sürüm Qwen3-32B'ye kıyasla eğitim maliyeti bakımından 10 kat daha ucuz olacak şekilde eğitildi. Aynı zamanda şirket, modelin işlem kabiliyeti açısından 10 kat daha güçlü olduğunu belirtiyor.
Teknik yenilikler
Geliştirici ekibi GitHub notlarında, yeni mimarinin performansı maksimize etmeye ve işlem maliyetini düşürmeye yönelik bir dizi yenilik içerdiğini açıkladı. Bu yenilikler arasında uzun metin girdilerini daha verimli işleyebilen hybrid attention (melez dikkat) ve modeli belirli alanlara odaklanan alt ağlara bölen high-sparsity mixture-of-experts (uzmanların yüksek-seyreklikte karışımı) teknikleri yer alıyor.
Model, 80 milyar parametre ölçeğinde olup tüketici düzeyi donanımlarda etkin çalışacak şekilde optimize edildi; bu sayede sınırlı işlemci gücüyle yüksek performans hedefleniyor.
Akıl yürütme modeli ve karşılaştırmalı performans
Alibaba, Qwen-3'ün akıl yürütme modelini de Next mimarisiyle güncelledi. Qwen3-Next-80B-A3B-Thinking adlı güncellenmiş akıl yürütme modeli, yayımlanan bağımsız testlerde hem önceki versiyon Qwen3-32B-Thinking'ten hem de Google'ın Gemini-2.5-Flash-Thinking'inden daha iyi performans gösterdi.
Daha önce Qwen3'ün akıl yürütme modeli, yapılan testlerde OpenAI'ın o1 ve DeepSeek'in R1 modellerine yaklaşan veya geçen sonuçlar elde etmişti; yeni güncelleme bu alandaki performansı daha ileri taşımayı hedefliyor.
Qwen3 ailesi ve önceki kilometre taşları
Alibaba, Nisan ayında 600 milyondan 235 milyara kadar parametreye sahip 8 gelişmiş modelden oluşan Qwen3 ailesini piyasaya sürmüştü. Şirket ayrıca bugüne kadarki en büyük modeli olan 1 trilyon parametreli Qwen3-Max-Preview'ı 8 Eylül'de kullanıma açtı. Bu model, Kaliforniya Üniversitesi'nin değerlendirme platformu LMArena'da metin çözümleme alanında 6. sırada yer aldı.
Parametre sayısındaki artışın modelin veri kapasitesini yükselttiği, ancak bunun aynı zamanda veri işleme için gereken hesaplama gücünü artırarak maliyetleri yükselttiği vurgulanıyor.
Çin'de yapay zeka sektörü ve rekabet
Bu gelişme, Çin'deki yapay zeka sektörünün hızla ilerlediğini ve yoğun rekabetin sürdüğünü gösteriyor. High-Flyer Quant yatırım fonunun desteklediği DeepSeek, az sayıda çip ve düşük maliyetle geliştirilen açık kaynaklı R1 modelini 20 Ocak'ta piyasaya sürmüş, model kısa sürede yoğun kullanım ve uygulama mağazalarında yüksek indirilme sayılarıyla dikkat çekmişti.
DeepSeek'in modelinin düşük bütçeyle yüksek performans göstermesi teknoloji piyasalarında etkiler yaratmış, bazı teknoloji hisselerinde satış baskısına yol açmıştı. Bu başarı, yorumlarda yapay zeka alanında bir dönüm noktası — bir tür "Sputnik anı" — olabileceğine dair benzetmelerle ele alındı.
Değerlendirme
Alibaba'nın açıkladığı Qwen3-Next-80B-A3B sürümü, maliyet ve performans dengesi üzerine odaklanan teknik yaklaşımlarıyla dikkat çekiyor. Modelin tüketici düzeyi donanımlarda kullanılabilirlik hedefi ve akıl yürütme yeteneklerindeki ilerleme, açık kaynak ekosisteminde erişilebilir yüksek performanslı modellerin yaygınlaşması açısından önemli bir adım olarak değerlendiriliyor.