A generatív mesterséges intelligencia (generatív MI) olyan számítógépes rendszerekre utal, amelyek képesek új, eredeti tartalmak előállítására: szöveg, kép, hang, videó és akár programkód formájában. Ez a képesség alapvetően különbözteti meg a korábbi MI-rendszerektől, amelyek elsősorban osztályozási és előrejelzési feladatokat láttak el.
Az elmúlt évtizedben a generatív modellek robbanásszerű fejlődésen mentek keresztül. A 2014-ben bevezetett generatív ellenpáros hálózatoktól (GAN) a 2020-as évek diffúziós modelljeiig és nagy nyelvi modelljeig (LLM) a terület folyamatosan bővíti lehetőségeit és alkalmazási területeit.
Mi a generatív mesterséges intelligencia?
A hagyományos, ún. diszkriminatív MI-modellek arra tanítják a rendszert, hogy különbséget tegyen adott kategóriák között – például felismerje, hogy egy kép macskát vagy kutyát ábrázol. A generatív modellek ezzel szemben a bemeneti adatok eloszlását tanulják meg, majd ebből az eloszlásból új mintákat hoznak létre.
Lényeges fogalom a latens tér (latent space): egy kompakt, magas dimenziós reprezentáció, amelyben a modell tömörítve tárolja a tanulási adatok statisztikai mintázatait. Az új tartalom generálása ebből a tömörített reprezentációból való visszafejtéssel, vagy a latens térben végzett mintavételezéssel történik.
A generatív MI főbb típusai
Generatív ellenpáros hálózatok (GAN)
A GAN-t Ian Goodfellow és munkatársai vezették be 2014-ben. Az architektúra két hálózatból áll: a generátor valósnak tűnő adatokat igyekszik előállítani, míg a diszkriminátor megpróbálja megkülönböztetni a valódi és a generált mintákat. A két hálózat egymással versengve tanul, és ez a dinamika rendkívül valósághű képek, videók és hangok előállítását tette lehetővé.
A GAN-ok jellemzője, hogy kimenete éles és részletgazdag, ugyanakkor a tanítás instabil lehet, és bizonyos esetekben az ún. mode collapse jelensége lép fel, amikor a generátor csak korlátozott számú mintát állít elő.
Variációs autoenkóderek (VAE)
A VAE-k egy enkóder-dekóder felépítést alkalmaznak, ahol az enkóder a bemeneti adatokat egy folytonos latens tér valószínűségi eloszlásává alakítja, a dekóder pedig ebből az eloszlásból mintavételezéssel hoz létre új adatokat. A VAE-k stabilabban taníthatók a GAN-oknál, és a latens tér folytonossága lehetővé teszi az interpolációt két különböző generált minta között.
Diffúziós modellek
A diffúziós modellek a képgenerálás területén az elmúlt néhány évben váltak meghatározóvá. A modell fokozatosan zajt ad egy képhez (előreirányú diffúzió), majd megtanulja a zajt lépésről lépésre eltávolítani (visszairányú diffúzió). A Stable Diffusion, a DALL-E 2 és a Midjourney mind ezen az elven alapul.
Nagy nyelvi modellek (LLM)
Az LLM-ek transzformer architektúrán alapulnak, és hatalmas szöveges adatkorpuszon tanulnak. A GPT (Generative Pre-trained Transformer) sorozat, valamint a Google PaLM és Meta LLaMA modelljei képesek összefüggő, kontextushelyes szöveg, programkód és akár matematikai levezetések generálására.
Kulcsfogalmak
- Latens tér: Kompakt, magas dimenziós reprezentáció, amelyből a modell generál.
- GAN: Generatív ellenpáros hálózat – generátor és diszkriminátor versengése.
- VAE: Variációs autoenkóder – folytonos valószínűségi latens tér.
- Diffúziós modell: Zajeltávolítási elvű képgeneráló architektúra.
- LLM: Nagy nyelvi modell – transzformer alapú szöveggenerátor.
- Tokenizálás: A szöveg diszkrét egységekre (tokenekre) bontása a feldolgozás előtt.
Hogyan tanulnak a generatív modellek?
A generatív modellek felügyelt, önfelügyelt vagy megerősítéses tanulással sajátítják el a mintákat. A legtöbb jelenlegi nagy modell önfelügyelt tanulást alkalmaz: a tanítási adat egy részét elrejtik (pl. mondatrészletek, kép zajosítása), és a modell feladata az elrejtett rész visszaállítása.
A tanítási folyamat során a modell paramétereit (a mesterséges neuronok súlyait) egy optimalizáló algoritmus – leggyakrabban az Adam-optimalizáló – iteratívan frissíti, minimalizálva egy veszteségfüggvényt. Nagy modellek esetén ez a folyamat akár hetek alatt, több ezer GPU párhuzamos futtatásával zajlik le.
Alkalmazási területek Magyarországon
A magyarországi technológiai vállalatoknál és startupközösségekben egyre több generatív MI-alkalmazás jelenik meg. A marketing és tartalomgyártás területén szöveges tartalmak, social media posztok és reklámképek generálása vált mindennapossá.
A szoftvertesztelési szektorban a generatív modellek teszteseteket és szintetikus tesztadatokat állítanak elő, csökkentve a kézi munkát. Az oktatási célú felhasználás is terjed: magyarázó szövegek, feladatok és interaktív tananyagok előállítása több hazai edtech cég portfoliójában megjelent.
A generatív MI nem helyettesíti az emberi kreativitást, hanem új eszközt ad a kezébe – ahogy a fényképezőgép megjelenése sem tette feleslegessé a festőket, hanem új kifejezési formákat nyitott meg.
A generatív MI korlátai és kihívásai
A generatív modellek jól dokumentált problémája a hallucináció: a modell magabiztos, de téves vagy kitalált információkat közöl. Ez különösen problémás orvosi, jogi és pénzügyi alkalmazásokban, ahol a pontosság kritikus.
A torzítás (bias) szintén komoly kihívás: ha a tanítási adatok alulreprezentálnak bizonyos csoportokat vagy nézőpontokat, a modell kimenetele is torzítottá válik. Az Európai Unió MI-rendelet (AI Act) – amely közvetlenül érint minden Magyarországon működő szervezetet is – erre a problémára is hoz szabályozási előírásokat.
A szerzői jogi kérdések szintén rendezetlen területet jelentenek. Több eljárás folyik az EU-ban és az USA-ban azzal kapcsolatban, hogy a szerzői jog által védett műveken tanított modellek kimenete jogsértő-e, és kié a generált tartalom szerzői joga.