Képgenerálás szövegből: diffúziós modellek és működésük

A diffúziós modellek napjaink legismertebb szöveg-kép generáló rendszereinek alapját képezik. A Stable Diffusion, a DALL-E 2 és a Midjourney egyaránt ezen az elvrendszeren alapul. A 2020-as évek elején a GAN-modelleket felváltva a diffúziós megközelítés vált a képgenerálás meghatározó paradigmájává, mivel stabilabban tanítható és változatosabb, jobb minőségű kimeneteket eredményez.

Mi a diffúziós modell?

A diffúziós modellek egy fizikai folyamatot utánoznak: a hővezetést, illetve a részecskék diffúzióját. A tanítás során a modell fokozatosan Gauss-zajt (véletlen, normális eloszlású értékeket) ad egy képhez, egészen addig, amíg az kizárólag zajból áll. Ezt nevezzük előreirányú diffúziónak.

A modell feladata a visszairányú diffúzió megtanulása: adott zajszintű képből meg kell becsülni, melyik zajkomponens távolítható el, hogy a kép egy lépéssel tisztábbá váljon. Ezt a becslési folyamatot elegendő számú lépésben (tipikusan 20–1000 lépés) elvégezve egy összefüggő, értelmes képet kapunk puszta zajból kiindulva.

A diffúziós folyamat összefoglalva

Előreirányú diffúzió: Valódi kép → fokozatosan növekvő zaj → tiszta Gauss-zaj.
Visszairányú diffúzió: Véletlen zaj → lépésenkénti zajeltávolítás → generált kép.
Zaj-prediktor: A neurális hálózat megtanulja, melyik zaj távolítható el adott lépésben.
Mintavételezési lépések: Kevesebb lépés = gyorsabb, de alacsonyabb minőség.

Szöveg–kép párosítás: hogyan érti a modell a szöveget?

Önmagában a diffúziós modell csak zajból generál képet, irányítás nélkül. A szöveges vezérléshez szükség van egy szövegenkóder modulra, amely a szöveges leírást (promptot) numerikus vektorrá alakítja. A Stable Diffusion a CLIP (Contrastive Language–Image Pre-Training) modellt alkalmazza erre a feladatra.

A CLIP-et több százmillió kép–szöveg párból tanították: megtanulta, hogy bizonyos szöveges leírások és bizonyos képek hasonló reprezentációval bírnak egy közös vektortérben. Amikor a szövegvektor bevitelre kerül a diffúziós modell visszairányú folyamatába, az ún. keresztfigyelmi mechanizmus (cross-attention) révén a generált kép egyre inkább igazodik a leíráshoz.

A Stable Diffusion felépítése

A Stability AI által 2022-ben nyílt forráskódúvá tett Stable Diffusion egy latens diffúziós modell (LDM). Ahelyett, hogy a teljes képen végezné a zajítást és zajeltávolítást, előbb egy variációs autoenkóderrel (VAE) a képet egy kisebb dimenziós latens térbe tömöríti. A diffúziós folyamat ebben a kompakt reprezentációban zajlik, ami jelentősen csökkenti a szükséges számítási kapacitást.

A zaj-prediktor hálózata egy módosított U-Net architektúra, amely keresztfigyelmi rétegeket tartalmaz a szövegvektor beépítésére. Ezek a rétegek teszik lehetővé, hogy a zajeltávolítás iránya a szöveges leíráshoz igazodjon.

A Stable Diffusion webes felülete paraméterbeállítással — A Stable Diffusion AUTOMATIC1111 webes felülete. A prompt, a negatív prompt, a lépésszám és a CFG-skála mind meghatározza a generált kép jellemzőit. (Forrás: Wikimedia Commons)

Képgenerálás a gyakorlatban: prompt-írás

A generált kép minősége és tartalma nagymértékben függ a szöveges leírástól (prompttól). A hatékony prompt általában tartalmazza a kép tartalmát, stílusát, megvilágítási körülményeket és esetleg a kívánt minőségi jelzőket.

A negatív prompt megadásával kizárható, hogy bizonyos elemek (pl. torzult kezek, homályosság) megjelenjenek a kimenetben. A CFG-skála (Classifier-Free Guidance scale) azt szabályozza, mennyire tartsa magát a modell a szöveghez: magas érték erőteljesebb szövegtartást, de esetleg kisebb változatosságot jelent.

A diffúziós modellek nem másolnak, hanem a tanítási adatok statisztikai mintázataiból építenek fel új képet. Egyetlen konkrét forrásképet nem reprodukálnak – ez az egyik alapvető különbség a hagyományos képszerkesztéstől.

Stable Diffusion által generált spanyolországi városkép — Stable Diffusion kimenet: fotorealisztikus városkép szöveges leírásból. (Forrás: Wikimedia Commons)

Jogi és etikai megfontolások

A szöveg-kép generálás komoly jogi kérdéseket vet fel Magyarországon is. Az Európai Unió MI-rendelete (AI Act) a szerzői jog által védett adatokon tanított modellekre transzparencia-kötelezettséget ír elő: a modellek tanítóit közölniük kell, milyen adatokat használtak.

A generált tartalom szerzői jogi helyzete a legtöbb EU-tagállamban, köztük Magyarországon is, rendezetlen: a jelenlegi szerzői jogi törvény csak természetes személyek alkotásait védi, a tisztán MI által generált tartalom szerzői jogát senki sem követelheti. Ez a jogi bizonytalanság a kereskedelmi felhasználókat óvatosságra inti.

Az ún. deepfake tartalmak előállítása – valódi személyeket ábrázoló, de valótlan képek – több EU-tagállamban büntetőjogilag is üldözött, és a GDPR is vonatkozik rájuk, amennyiben felismerhető személyek képmásáról van szó.