A transzformer architektúra: a modern generatív MI alapja

A transzformer architektúra 2017-es bemutatása – a Google Brain kutatóinak „Attention is All You Need" címmel megjelent cikkével – az egyik legnagyobb áttörésnek számít a mesterséges intelligencia történetében. Az azóta eltelt években a transzformer szinte teljes egészében felváltotta az addig domináns visszacsatolásos neurális hálózatokat (RNN, LSTM) szövegfeldolgozási feladatokban, és a képfeldolgozásban is megkerülhetetlen architektúrává vált.

A transzformer előzményei és motivációja

Az 1990-es évektől az RNN (visszacsatolásos neurális hálózat) és annak fejlettebb változata, az LSTM (Long Short-Term Memory) dominálta a szövegfeldolgozást. Ezek a modellek szekvenciálisan dolgozzák fel az adatokat: minden pozíciónál az előző lépés kimenetét veszik figyelembe. Ez a szekvencialitás két komoly hátrányt jelent:

A párhuzamos feldolgozás nehézkes, ami lassú tanítást eredményez.
Hosszú szekvenciák esetén a korai tokenek információja fokozatosan elvész (eltűnő gradiens probléma).

A transzformer mindkét problémát megoldja azzal, hogy elhagyja a szekvenciális feldolgozást, és egy önfigyelmi mechanizmust alkalmaz, amely minden pozíciót közvetlenül kapcsolatba hozhat a szekvencia bármely másik pozíciójával.

Az önfigyelmi mechanizmus (Self-Attention)

Az önfigyelmi mechanizmus lényege, hogy a szekvencia minden egyes eleméhez (tokenéhez) három vektort rendel: egy kérdés vektort (Query, Q), egy kulcs vektort (Key, K) és egy érték vektort (Value, V). A figyelmi súlyokat a Q és K vektorok skaláris szorzataként számítják ki, majd ezzel súlyozzák a V vektorokat.

Ennek eredménye, hogy minden token „figyel" az összes többi tokenre, és az összefüggés erőssége tanult paraméterektől függ. Például egy „bank" szó esetén a modell megtanulja, hogy az előző mondatból a „folyó" szó erős kapcsolatban áll az aktuális „bank" előfordulással (ha folyópartról van szó), míg a „pénz" szóval gyenge a kapcsolat.

Az önfigyelmi mechanizmus lépései

A bemeneti tokeneket vektorrá alakítják (embedding).
Minden vektorból Q, K, V vektort számítanak tanult lineáris transzformációkkal.
Figyelmi súlyok = softmax(QK^T / √d_k).
Kimenet = figyelmi súlyok × V.

A transzformer felépítése

Az eredeti transzformer egy enkóder–dekóder architektúra. Az enkóder a bemeneti szekvenciát (pl. magyar mondatot) egy gazdag kontextuális reprezentációvá alakítja. A dekóder ebből a reprezentációból, valamint a saját eddig generált kimenetéből hozza létre a cél szekvenciát (pl. az angol fordítást).

Mindkét rész több ismétlődő blokkból áll, amelyek önfigyelmi réteget, keresztfigyelmi réteget (dekóderben) és előrecsatolt (feed-forward) hálózatot tartalmaznak. A rétegnormalizálás és a maradékkötések (residual connections) biztosítják a stabil tanítást még nagyon mély hálózatok esetén is.

A transzformer modell részletes architektúrájának diagramja enkóderrel és dekóderrel — Az eredeti transzformer architektúra Vaswani et al. (2017) alapján. Bal oldal: enkóder; jobb oldal: dekóder. (Forrás: Wikimedia Commons)

Nagy nyelvi modellek (LLM)

A legtöbb jelenlegi nagy nyelvi modell a transzformer egy leszűkített, csak dekóder-részét alkalmazza (decoder-only). A GPT sorozat – a 2018-as GPT-1-től a GPT-4-ig – ilyen architektúrán alapul. A modell feladata, hogy egy adott szövegrészlet után meghatározza, mi a legvalószínűbb következő token.

A BERT (Bidirectional Encoder Representations from Transformers) ezzel szemben csak az enkóder részt alkalmazza, és kétirányúan – azaz a szöveg mindkét irányából – veszi figyelembe a kontextust. A BERT inkább megértési feladatokra (osztályozás, kérdés-válasz) alkalmas, mint generálásra.

A transzformer figyelmi mechanizmusa azt teszi lehetővé, hogy a modell egyetlen lépésben összefüggésbe hozza a szöveg tetszőleges távoli részeit – ami az emberi szövegértés egyik alapvető sajátossága.

Multimodális transzformer modellek

A transzformer architektúra nemcsak szövegre, hanem más típusú adatokra is alkalmazható. A Vision Transformer (ViT) képeket tokenizál képdarabokra (patch), majd a szöveg-transzformerekhez hasonló architektúrával dolgozza fel. A DALL-E 2, az Imagen és részben a Stable Diffusion is transzformer komponenseket (különösen a CLIP szövegenkódert) alkalmaz a szöveg–kép kapcsolat kiépítésére.

Ez a multimodális irány jelenleg a generatív MI egyik legaktívabb kutatási területe: a legjobb modellek egyszerre képesek szöveget, képet és hangot feldolgozni és generálni.