Microsoft’tan yeni görsel üretim modeli: MAI-Image-2 güçlü başladı
Microsoft, yapay zeka ile görsel üretim tarafında bu kez kendi modelini öne çıkarıyor. MAI-Image-2 adı verilen yeni metinden görsele model, Arena.ai sıralamasında kısa sürede üst sıralara yerleşirken özellikle fotogerçekçilik ve görsel içi metin üretimiyle dikkat çekiyor.
İşin dikkat çeken yanı yalnızca görüntü kalitesi değil. Microsoft’un daha önce Copilot ve Bing Image Creator tarafında dış ortakların modellerinden yararlanması, bu hamleyi ürün stratejisi açısından da önemli hale getiriyor. Yine de ilk tablo kusursuz değil. Sıkı içerik filtreleri, kullanım sınırları ve eksik düzenleme araçları modelin önüne şimdiden bazı sınırlar koyuyor.
MAI-Image-2, Microsoft’un kendi geliştirdiği yeni metinden görsele üretim modeli olarak kullanıma açıldı.
Model, gerçekçilik ve görsel içi metin üretiminde güçlü sonuçlar veriyor.
1:1 çıktı zorunluluğu, üretim kotası ve düzenleme araçlarının eksikliği kullanım alanını daraltıyor.
MAI-Image-2 şu anda MAI Playground üzerinden erişilebiliyor. Copilot ve Bing Image Creator tarafında kademeli dağıtım sürerken, API erişimi de şimdilik seçili kurumsal müşterilerle sınırlı tutuluyor. Daha geniş erişimin ilerleyen dönemde Microsoft Foundry üzerinden açılması planlanıyor.
Modelin geliştirme tarafında öne çıkarılan üç temel hedef var: daha güçlü fotogerçekçilik, görsel içindeki metinleri daha tutarlı üretebilme ve daha ayrıntılı sahneler kurabilme. Zaten metinden görsele sistemlerde yarış da büyük ölçüde bu başlıklarda dönüyor. Yalnızca güzel görünen bir sonuç üretmek yetmiyor, komutu ne kadar doğru anladığı, metni ne kadar temiz yazdığı ve görsel düzeni ne kadar sağlam kurduğu da artık en az kalite kadar önemli.
İlk izlenim tarafında modelin en güçlü olduğu alan fotogerçekçilik. Doğal ışık kullanımı, yüzey dokuları ve nesneler arasındaki mekansal ilişki gibi noktalarda güçlü bir performans sergilediği aktarılıyor. Karmaşık ve mantık sınırlarını zorlayan sahnelerde bile beden oranları, uzuv konumları, derinlik hissi ve sahne yerleşimi gibi detayları tutarlı biçimde koruyabildiği belirtiliyor.
Bir diğer güçlü taraf ise görsel içi metin üretimi. Posterler, tabelalar ve büyük metin blokları içeren tasarımlarda, benzer araçlarda sık görülen bozulmaların burada daha sınırlı kaldığı ifade ediliyor. Çok dilli denemelerde bazı Çince hanzi karakterlerinin de üretilebildiği, ancak doğruluğun kusursuz olmadığı belirtiliyor. Buna rağmen, tipografi tarafındaki bu seviye bile modeli birçok kullanım senaryosunda daha dikkat çekici hale getiriyor.
Stil geçişlerinde de benzer bir tablo var. Fotogerçekçi karelerden grafik tasarım estetiğine, oradan illüstratif tarza geçerken komutları dikkatle takip edebildiği ve farklı görsel diller arasında daha az sürtünmeyle hareket ettiği söyleniyor. Özellikle tek modelle farklı üretim tarzlarını denemek isteyen kullanıcılar için bu esneklik önemli.
Teknik güç tarafı dikkat çekse de ürün deneyimi şimdilik daha sınırlı görünüyor. Model oldukça sıkı filtrelerle çalışıyor. Verilen örneklerden birinde bir örümceğin bir kadını kovaladığı çizgi resim isteğinin bile reddedildiği aktarılıyor. Bu da yalnızca şiddet veya açık içerik gibi bariz alanlarda değil, daha gri kabul edilen yaratıcı taleplerde de sistemin erken fren yapabildiğini gösteriyor.
Kullanım sınırları da benzer ölçüde katı. Her üretimden sonra 30 saniyelik bekleme süresi var. 15 görselin ardından ise 24 saatlik erişim kilidi devreye giriyor. Kısa denemeler için bu yapı tolere edilebilir görünse de düzenli üretim yapan, çok sayıda varyasyon deneyen ya da iş akışını hız üzerine kuran kullanıcılar için ciddi bir fren anlamına geliyor.
Şimdilik yalnızca 1:1 oranında çıktı alınabilmesi, modelin en belirgin eksiklerinden biri. Yatay ya da dikey format sunulmaması, özellikle sosyal medya, kapak görselleri ve farklı yayın formatları için üretim yapan kullanıcıları doğrudan etkiliyor. Güncel üretken görsel araçlarında artık kalite kadar oran seçenekleri de temel beklenti haline gelmiş durumda.
Bunun yanında sistem yalnızca text-to-image olarak çalışıyor. Image-to-image desteği yok. Inpainting, outpainting ve referans görsel desteği de bulunmuyor. Bu da aracı fikir üretimi ve ilk görsel oluşturma için kullanışlı kılsa da düzenleme, revizyon ve yaratıcı kontrol tarafında rakiplerinin sunduğu daha geniş araç setinin gerisinde bırakıyor.
Bir başka önemli nokta da modelin Copilot içinde henüz tam olarak yer almıyor olması. Dağıtım süreci başlamış olsa da, kullanıcıların bu teknolojiyi en görünür şekilde karşısında görmeyi beklediği ürünlerde deneyim henüz tam oturmuş değil. Bu nedenle MAI-Image-2 şu aşamada güçlü bir teknik temel sunuyor, ancak günlük kullanım değeri tarafında aynı ölçüde ikna edici bir tablo çizmiyor.
Microsoft’un burada verdiği asıl mesaj, görsel üretimde artık yalnızca dış ortakların teknolojisine yaslanmak istememesi. MAI-Image-2’nin güçlü yönleri bunu teknik olarak destekliyor. Fakat bu alanda artık yalnızca model kalitesi değil, kullanım özgürlüğü ve iş akışına uyum da en az sonuç kalitesi kadar belirleyici hale gelmiş durumda.
