A diffúziós modellek napjaink legismertebb szöveg-kép generáló rendszereinek alapját képezik. A Stable Diffusion, a DALL-E 2 és a Midjourney egyaránt ezen az elvrendszeren alapul. A 2020-as évek elején a GAN-modelleket felváltva a diffúziós megközelítés vált a képgenerálás meghatározó paradigmájává, mivel stabilabban tanítható és változatosabb, jobb minőségű kimeneteket eredményez.
Mi a diffúziós modell?
A diffúziós modellek egy fizikai folyamatot utánoznak: a hővezetést, illetve a részecskék diffúzióját. A tanítás során a modell fokozatosan Gauss-zajt (véletlen, normális eloszlású értékeket) ad egy képhez, egészen addig, amíg az kizárólag zajból áll. Ezt nevezzük előreirányú diffúziónak.
A modell feladata a visszairányú diffúzió megtanulása: adott zajszintű képből meg kell becsülni, melyik zajkomponens távolítható el, hogy a kép egy lépéssel tisztábbá váljon. Ezt a becslési folyamatot elegendő számú lépésben (tipikusan 20–1000 lépés) elvégezve egy összefüggő, értelmes képet kapunk puszta zajból kiindulva.
A diffúziós folyamat összefoglalva
- Előreirányú diffúzió: Valódi kép → fokozatosan növekvő zaj → tiszta Gauss-zaj.
- Visszairányú diffúzió: Véletlen zaj → lépésenkénti zajeltávolítás → generált kép.
- Zaj-prediktor: A neurális hálózat megtanulja, melyik zaj távolítható el adott lépésben.
- Mintavételezési lépések: Kevesebb lépés = gyorsabb, de alacsonyabb minőség.
Szöveg–kép párosítás: hogyan érti a modell a szöveget?
Önmagában a diffúziós modell csak zajból generál képet, irányítás nélkül. A szöveges vezérléshez szükség van egy szövegenkóder modulra, amely a szöveges leírást (promptot) numerikus vektorrá alakítja. A Stable Diffusion a CLIP (Contrastive Language–Image Pre-Training) modellt alkalmazza erre a feladatra.
A CLIP-et több százmillió kép–szöveg párból tanították: megtanulta, hogy bizonyos szöveges leírások és bizonyos képek hasonló reprezentációval bírnak egy közös vektortérben. Amikor a szövegvektor bevitelre kerül a diffúziós modell visszairányú folyamatába, az ún. keresztfigyelmi mechanizmus (cross-attention) révén a generált kép egyre inkább igazodik a leíráshoz.
A Stable Diffusion felépítése
A Stability AI által 2022-ben nyílt forráskódúvá tett Stable Diffusion egy latens diffúziós modell (LDM). Ahelyett, hogy a teljes képen végezné a zajítást és zajeltávolítást, előbb egy variációs autoenkóderrel (VAE) a képet egy kisebb dimenziós latens térbe tömöríti. A diffúziós folyamat ebben a kompakt reprezentációban zajlik, ami jelentősen csökkenti a szükséges számítási kapacitást.
A zaj-prediktor hálózata egy módosított U-Net architektúra, amely keresztfigyelmi rétegeket tartalmaz a szövegvektor beépítésére. Ezek a rétegek teszik lehetővé, hogy a zajeltávolítás iránya a szöveges leíráshoz igazodjon.
Képgenerálás a gyakorlatban: prompt-írás
A generált kép minősége és tartalma nagymértékben függ a szöveges leírástól (prompttól). A hatékony prompt általában tartalmazza a kép tartalmát, stílusát, megvilágítási körülményeket és esetleg a kívánt minőségi jelzőket.
A negatív prompt megadásával kizárható, hogy bizonyos elemek (pl. torzult kezek, homályosság) megjelenjenek a kimenetben. A CFG-skála (Classifier-Free Guidance scale) azt szabályozza, mennyire tartsa magát a modell a szöveghez: magas érték erőteljesebb szövegtartást, de esetleg kisebb változatosságot jelent.
A diffúziós modellek nem másolnak, hanem a tanítási adatok statisztikai mintázataiból építenek fel új képet. Egyetlen konkrét forrásképet nem reprodukálnak – ez az egyik alapvető különbség a hagyományos képszerkesztéstől.
Jogi és etikai megfontolások
A szöveg-kép generálás komoly jogi kérdéseket vet fel Magyarországon is. Az Európai Unió MI-rendelete (AI Act) a szerzői jog által védett adatokon tanított modellekre transzparencia-kötelezettséget ír elő: a modellek tanítóit közölniük kell, milyen adatokat használtak.
A generált tartalom szerzői jogi helyzete a legtöbb EU-tagállamban, köztük Magyarországon is, rendezetlen: a jelenlegi szerzői jogi törvény csak természetes személyek alkotásait védi, a tisztán MI által generált tartalom szerzői jogát senki sem követelheti. Ez a jogi bizonytalanság a kereskedelmi felhasználókat óvatosságra inti.
Az ún. deepfake tartalmak előállítása – valódi személyeket ábrázoló, de valótlan képek – több EU-tagállamban büntetőjogilag is üldözött, és a GDPR is vonatkozik rájuk, amennyiben felismerhető személyek képmásáról van szó.