HKU-Alibaba'nın "Visual AI Any Door" özelliği, nesneleri tek bir tıklamayla sahneye sorunsuz bir şekilde iletebilir

Kaynak: Qubit

İki fare tıklamasıyla nesne sorunsuz bir şekilde fotoğraf sahnesine "aktarılabilir" ve ışık açısı ve perspektif de otomatik olarak uyarlanabilir.

Ali ve HKU'nun "Any Gate" yapay zeka sürümü, sıfır örnekli görüntü yerleştirmeyi gerçekleştiriyor.

Bununla birlikte, online alışveriş kıyafetleri de doğrudan üst beden etkisini görebilir.

İşlev herhangi bir kapıya çok benzediği için Ar-Ge ekibi buna AnyDoor adını verdi.

AnyDoor aynı anda birden fazla nesneyi ışınlayabilir.

Sadece bu değil, görüntüdeki mevcut nesneleri de hareket ettirebilir.

Bazı netizenler izledikten sonra hayran kaldılar, belki bir sonraki video (nesneleri geçirme) videoya evrilir.

Sıfır örnek oluşturma gerçekçi etkisi

Mevcut benzer modellerle karşılaştırıldığında, AnyDoor sıfır örnekle çalışma yeteneğine sahiptir ve modeli belirli öğeler için ayarlamaya gerek yoktur.

AnyDoor, parametre ayarı gerektiren bu modellerin yanı sıra diğer Referans modellerine göre de daha hassastır.

Aslında, diğer Referans sınıfı modelleri yalnızca anlamsal tutarlılığı koruyabilir.

Layman'ın ifadesiyle, iletilecek nesne bir kedi ise, diğer modeller yalnızca sonuçta bir kedinin de olduğunu garanti edebilir, ancak benzerlik garanti edilemez.

AnyDoor'un etkisini yakınlaştırabiliriz, herhangi bir kusur göremez miyiz?

Kullanıcı incelemelerinin sonuçları da AnyDoor'un hem kalite hem de doğruluk açısından (4 üzerinden) mevcut modellerden daha iyi performans gösterdiğini doğrulamaktadır.

AnyDoor, mevcut görüntülerdeki nesnelerin hareketi, yer değiştirmesi ve hatta duruşunun değiştirilmesi için de iyi performans gösterebilir.

Peki, AnyDoor bu işlevleri nasıl gerçekleştiriyor?

çalışma prensibi

Bir cismin aktarımını gerçekleştirmek için önce onu çıkartmak gerekir.

Ancak, hedef nesneyi içeren görüntüyü ayıklayıcıya beslemeden önce, AnyDoor önce üzerinde arka plan kaldırma işlemi gerçekleştirir.

Ardından AnyDoor, kendi kendini denetleyen nesne çıkarımı gerçekleştirecek ve onu simgeye dönüştürecektir.

Bu adımda kullanılan kodlayıcı, mevcut en iyi kendinden denetimli model DINO-V2'ye göre tasarlanmıştır.

Açı ve ışıktaki değişikliklere uyum sağlamak için, öğenin genel özelliklerinin çıkarılmasına ek olarak, ek detay bilgilerinin çıkarılması gerekir.

Bu adımda, aşırı kısıtlamalardan kaçınmak için ekip, özellik bilgilerini yüksek frekanslı haritalarla temsil etmenin bir yolunu tasarladı.

Hedef görüntünün Sobel operatörü gibi bir yüksek geçiren filtre ile evrilmesiyle, yüksek frekanslı ayrıntılara sahip bir görüntü elde edilebilir.

Aynı zamanda AnyDoor, görüntüdeki RGB renk bilgilerini çıkarmak için Hadamard'ı kullanır.

Bu bilgiyi uç bilgisini filtreleyen bir maske ile birleştirmek, yalnızca yüksek frekans ayrıntılarını içeren bir HF-Haritası verir.

Son adım, bu bilgiyi enjekte etmektir.

AnyDoor, elde edilen belirteci kullanarak görüntüyü Vinsen grafik modeli aracılığıyla sentezler.

AnyDoor özellikle ControlNet ile Kararlı Difüzyon kullanır.

AnyDoor'un iş akışı kabaca şöyledir. Eğitim açısından, bazı özel stratejiler de vardır.

###### AnyDoor tarafından kullanılan eğitim veri seti

AnyDoor durağan görüntüleri hedeflese de, eğitim için kullanılan verilerin bir kısmı videolardan çıkarılır.

Aynı nesne için farklı arka planlar içeren görüntüler videodan çıkarılabilir.

AnyDoor'un eğitim verisi, nesneyi arka plandan ayırıp çifti işaretleyerek oluşturulur.

Ancak video verileri öğrenme için iyi olsa da ele alınması gereken kalite sorunları var.

Bu nedenle ekip, farklı zamanlarda değişiklik ve ayrıntılı bilgi toplamak için uyarlanabilir bir zaman adımlı örnekleme stratejisi tasarladı.

Ablasyon deneylerinin sonuçlarından, bu stratejilerin eklenmesiyle hem CLIP hem de DINO puanlarının giderek arttığı görülmektedir.

Takım Profili

Makalenin ilk yazarı, bir zamanlar Alibaba Group'ta algoritma mühendisi olan Hong Kong Üniversitesi'nde doktora öğrencisi olan Xi Chen'dir.

Chen Xi'nin süpervizörü Hengshuang Zhao, bu makalenin ilgili yazarıdır.Araştırma alanları makine görüşü ve makine öğrenimidir.

Ayrıca bu projeye Alibaba DAMO Academy ve Cainiao Group'tan araştırmacılar da katıldı.

Kağıt adresi:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)