A generatív mesterséges intelligencia alapjai

A generatív mesterséges intelligencia (generatív MI) olyan számítógépes rendszerekre utal, amelyek képesek új, eredeti tartalmak előállítására: szöveg, kép, hang, videó és akár programkód formájában. Ez a képesség alapvetően különbözteti meg a korábbi MI-rendszerektől, amelyek elsősorban osztályozási és előrejelzési feladatokat láttak el.

Az elmúlt évtizedben a generatív modellek robbanásszerű fejlődésen mentek keresztül. A 2014-ben bevezetett generatív ellenpáros hálózatoktól (GAN) a 2020-as évek diffúziós modelljeiig és nagy nyelvi modelljeig (LLM) a terület folyamatosan bővíti lehetőségeit és alkalmazási területeit.

Mi a generatív mesterséges intelligencia?

A hagyományos, ún. diszkriminatív MI-modellek arra tanítják a rendszert, hogy különbséget tegyen adott kategóriák között – például felismerje, hogy egy kép macskát vagy kutyát ábrázol. A generatív modellek ezzel szemben a bemeneti adatok eloszlását tanulják meg, majd ebből az eloszlásból új mintákat hoznak létre.

Lényeges fogalom a latens tér (latent space): egy kompakt, magas dimenziós reprezentáció, amelyben a modell tömörítve tárolja a tanulási adatok statisztikai mintázatait. Az új tartalom generálása ebből a tömörített reprezentációból való visszafejtéssel, vagy a latens térben végzett mintavételezéssel történik.

A mesterséges intelligencia és a generatív modellek összefüggése Venn-diagramon — A generatív modellek a mesterséges intelligencia és a gépi tanulás szélesebb rendszerein belül helyezkednek el. (Forrás: Wikimedia Commons, CC BY-SA 4.0)

A generatív MI főbb típusai

Generatív ellenpáros hálózatok (GAN)

A GAN-t Ian Goodfellow és munkatársai vezették be 2014-ben. Az architektúra két hálózatból áll: a generátor valósnak tűnő adatokat igyekszik előállítani, míg a diszkriminátor megpróbálja megkülönböztetni a valódi és a generált mintákat. A két hálózat egymással versengve tanul, és ez a dinamika rendkívül valósághű képek, videók és hangok előállítását tette lehetővé.

A GAN-ok jellemzője, hogy kimenete éles és részletgazdag, ugyanakkor a tanítás instabil lehet, és bizonyos esetekben az ún. mode collapse jelensége lép fel, amikor a generátor csak korlátozott számú mintát állít elő.

Variációs autoenkóderek (VAE)

A VAE-k egy enkóder-dekóder felépítést alkalmaznak, ahol az enkóder a bemeneti adatokat egy folytonos latens tér valószínűségi eloszlásává alakítja, a dekóder pedig ebből az eloszlásból mintavételezéssel hoz létre új adatokat. A VAE-k stabilabban taníthatók a GAN-oknál, és a latens tér folytonossága lehetővé teszi az interpolációt két különböző generált minta között.

Diffúziós modellek

A diffúziós modellek a képgenerálás területén az elmúlt néhány évben váltak meghatározóvá. A modell fokozatosan zajt ad egy képhez (előreirányú diffúzió), majd megtanulja a zajt lépésről lépésre eltávolítani (visszairányú diffúzió). A Stable Diffusion, a DALL-E 2 és a Midjourney mind ezen az elven alapul.

Nagy nyelvi modellek (LLM)

Az LLM-ek transzformer architektúrán alapulnak, és hatalmas szöveges adatkorpuszon tanulnak. A GPT (Generative Pre-trained Transformer) sorozat, valamint a Google PaLM és Meta LLaMA modelljei képesek összefüggő, kontextushelyes szöveg, programkód és akár matematikai levezetések generálására.

Kulcsfogalmak

Latens tér: Kompakt, magas dimenziós reprezentáció, amelyből a modell generál.
GAN: Generatív ellenpáros hálózat – generátor és diszkriminátor versengése.
VAE: Variációs autoenkóder – folytonos valószínűségi latens tér.
Diffúziós modell: Zajeltávolítási elvű képgeneráló architektúra.
LLM: Nagy nyelvi modell – transzformer alapú szöveggenerátor.
Tokenizálás: A szöveg diszkrét egységekre (tokenekre) bontása a feldolgozás előtt.

Hogyan tanulnak a generatív modellek?

A generatív modellek felügyelt, önfelügyelt vagy megerősítéses tanulással sajátítják el a mintákat. A legtöbb jelenlegi nagy modell önfelügyelt tanulást alkalmaz: a tanítási adat egy részét elrejtik (pl. mondatrészletek, kép zajosítása), és a modell feladata az elrejtett rész visszaállítása.

A tanítási folyamat során a modell paramétereit (a mesterséges neuronok súlyait) egy optimalizáló algoritmus – leggyakrabban az Adam-optimalizáló – iteratívan frissíti, minimalizálva egy veszteségfüggvényt. Nagy modellek esetén ez a folyamat akár hetek alatt, több ezer GPU párhuzamos futtatásával zajlik le.

Neurális hálózat rétegei: bemenet, rejtett réteg, kimenet — Egy egyszerű mélytanulású hálózat felépítése. A generatív modellek száz rétegnél mélyebb architektúrákat is alkalmaznak. (Forrás: Wikimedia Commons, CC BY-SA 3.0)

Alkalmazási területek Magyarországon

A magyarországi technológiai vállalatoknál és startupközösségekben egyre több generatív MI-alkalmazás jelenik meg. A marketing és tartalomgyártás területén szöveges tartalmak, social media posztok és reklámképek generálása vált mindennapossá.

A szoftvertesztelési szektorban a generatív modellek teszteseteket és szintetikus tesztadatokat állítanak elő, csökkentve a kézi munkát. Az oktatási célú felhasználás is terjed: magyarázó szövegek, feladatok és interaktív tananyagok előállítása több hazai edtech cég portfoliójában megjelent.

A generatív MI nem helyettesíti az emberi kreativitást, hanem új eszközt ad a kezébe – ahogy a fényképezőgép megjelenése sem tette feleslegessé a festőket, hanem új kifejezési formákat nyitott meg.

A generatív MI korlátai és kihívásai

A generatív modellek jól dokumentált problémája a hallucináció: a modell magabiztos, de téves vagy kitalált információkat közöl. Ez különösen problémás orvosi, jogi és pénzügyi alkalmazásokban, ahol a pontosság kritikus.

A torzítás (bias) szintén komoly kihívás: ha a tanítási adatok alulreprezentálnak bizonyos csoportokat vagy nézőpontokat, a modell kimenetele is torzítottá válik. Az Európai Unió MI-rendelet (AI Act) – amely közvetlenül érint minden Magyarországon működő szervezetet is – erre a problémára is hoz szabályozási előírásokat.

A szerzői jogi kérdések szintén rendezetlen területet jelentenek. Több eljárás folyik az EU-ban és az USA-ban azzal kapcsolatban, hogy a szerzői jog által védett műveken tanított modellek kimenete jogsértő-e, és kié a generált tartalom szerzői joga.