IGPT-4 architectuur

Hoe werkt het onder de motorkap?

Een type kunstmatige intelligentie dat wordt aangedreven door een neuraal netwerk. GPT staat voor "Generative Pre-trained Transformer". Laten we elk deel van die naam afzonderlijk bekijken om beter te begrijpen hoe het werkt.

Generative: GPT is in staat voorspellingen te doen en nieuwe inhoud te genereren op basis van de gegevens die tijdens de training zijn verwerkt.

Pre-trained: Voordat GPT in staat is om vragen te beantwoorden en informatie te genereren, is het een uitgebreide "pre-training" ondergaan. Tijdens deze fase zijn miljarden stukjes tekst uit diverse bronnen verwerkt om het neuraal netwerk te trainen in taalbegrip en het genereren van mensachtige antwoorden.

Transformer: Dit verwijst naar de architectuur van het neuraal netwerk dat GPT gebruikt. Transformers zijn ontworpen om patronen in grote hoeveelheden gegevens te herkennen en te begrijpen, en zijn bijzonder effectief in het verwerken van sequentiële gegevens zoals tekst.

Generatief

Het generatieve aspect van GPT-4 heeft betrekking op het vermogen van het model om nieuwe inhoud te creëren op basis van de informatie die het heeft opgedaan tijdens de training. Dit omvat het voorspellen van woorden, zinnen en zelfs hele alinea's, afhankelijk van de context en de input die het model ontvangt. Laten we dit concept verder verkennen.

In het kader van GPT-4 betekent "generatief" dat het model nieuwe tekst kan produceren die niet noodzakelijkerwijs eerder in de trainingsgegevens is gezien, maar wel logisch en coherent is gezien de context. Dit wordt bereikt door gebruik te maken van de kennis die het model heeft opgedaan over de structuur en patronen van de taal tijdens de pre-trainingsfase.

Wanneer je GPT een vraag stelt of een prompt geeft, analyseer het de input zoekt het naar relevante informatie in zijn interne kennisbank, op basis van de patronen en verbanden die het tijdens de training heeft geleerd. Vervolgens genereert het een antwoord door woorden en zinnen te voorspellen die logisch en samenhangend zijn met de gegeven context.

Dit proces begint met het genereren van een of meerdere "tokens" (woorden of delen van woorden) die het meest waarschijnlijk volgen op de gegeven input. Vervolgens wordt dit proces herhaald, waarbij elk nieuw gegenereerd token wordt toegevoegd aan de output, totdat een geschikt antwoord is gevormd of een vooraf bepaalde limiet is bereikt.

Het genereren van tekst gebeurt door middel van een proces genaamd “

Autoregressief samplen⁠

“. Dit houdt in dat het model de kansverdeling van mogelijke volgende tokens berekent op basis van de huidige context en eerder gegenereerde tokens. Het model kiest vervolgens een token uit deze verdeling, waarbij tokens met een hogere waarschijnlijkheid de voorkeur krijgen.

Er zijn verschillende methoden om tokens uit deze verdeling te selecteren, zoals "greedy decoding" (waarbij altijd het token met de hoogste waarschijnlijkheid wordt gekozen) of "nucleus sampling" (waarbij een subset van de meest waarschijnlijke tokens wordt geselecteerd en willekeurig wordt gekozen uit die subset).

Het generatieve vermogen van GPT-4 stelt het in staat om mensachtige antwoorden en inzichten te bieden op basis van de input die het ontvangt, en om relevante en informatieve tekst te produceren op basis van de context en de vraag.

Pre-trained

De pre-trainingsfase is cruciaal voor het ontwikkelen van ChatGPT zijn taalbegrip en het vermogen om mensachtige antwoorden te genereren. Tijdens deze fase word het blootgesteld aan enorme hoeveelheden tekst uit verschillende bronnen zoals boeken, artikelen, websites en andere vormen van tekst. Deze teksten bevatten een grote verscheidenheid aan onderwerpen, stijlen en contexten, wat helpt bij het opbouwen van een brede kennisbasis.

De pre-trainingsfase is een onbewaakt leerproces. Dit betekent dat er geen specifieke doelen of labels aan de gegevens zijn gekoppeld. In plaats daarvan probeert het model de structuur en patronen van de taal te leren door te voorspellen wat het volgende woord in een zin zal zijn. Dit wordt gedaan met behulp van een techniek die "Masked Language Modeling" wordt genoemd.

In Masked Language Modeling wordt een deel van de tekst (meestal enkele woorden) willekeurig "gemaskeerd" of verborgen, en het model moet proberen de ontbrekende woorden te voorspellen op basis van de context die door de rest van de zin wordt geboden. Door dit proces vele malen te herhalen met verschillende delen van de tekst, leert het model effectief de syntaxis, semantiek en algemene kennis die in de taal aanwezig is.

Na de pre-trainingsfase wordt het model verder verfijnd met behulp van een proces dat "fine-tuning" wordt genoemd. Tijdens deze fase wordt het model blootgesteld aan meer specifieke gegevens, vaak met menselijke annotaties of begeleiding. Dit helpt het model om beter te presteren op specifieke taken, zoals het beantwoorden van vragen of het genereren van tekst op basis van een bepaalde prompt.

Het resultaat van deze processen is een neuraal netwerk dat in staat is om mensachtige antwoorden en inzichten te genereren op basis van de enorme hoeveelheid tekst die het tijdens zijn training heeft verwerkt.

Masked Language Modeling

Originele zin: "De kat sprong op het bed."

In Masked Language Modeling zouden we een deel van de zin verbergen, bijvoorbeeld:

Gemaskerde zin: "De kat sprong op het [MASK]."

Hier hebben we het woord "bed" vervangen door een [MASK]-token. Het doel van het model is nu om het gemaskeerde woord te voorspellen op basis van de context van de rest van de zin.

GPT-4 zou de gemaskerde zin analyseren en proberen te bepalen welk woord het beste in de context past. Gezien de training op diverse teksten, zou het model waarschijnlijk het juiste woord "bed" voorspellen, omdat het de meest logische en waarschijnlijke optie is gezien de context.

Masked Language Modeling kan ook meerdere gemaskeerde woorden in één zin bevatten, bijvoorbeeld:

Gemaskerde zin: "De [MASK] sprong op het [MASK]."

In dit geval moet het model zowel het eerste als het tweede gemaskeerde woord voorspellen. Op basis van de context en zijn kennis van de taal, zou het model waarschijnlijk voorspellen dat het eerste gemaskeerde woord "kat" is en het tweede "bed".

Door dit soort oefeningen met miljarden tekstfragmenten uit te voeren, leert het model de structuur, regels en patronen van de taal en bouwt het zijn kennis op.

Transformer

De Transformer is een innovatieve architectuur voor neuraal netwerk die is geïntroduceerd door Vaswani et al. in 2017. Deze architectuur is speciaal ontworpen om sequentiële gegevens, zoals tekst, efficiënt te verwerken en is de basis van veel hedendaagse state-of-the-art taalmodellen, waaronder GPT-4.

De Transformer-architectuur maakt gebruik van twee belangrijke concepten: "self-attention" en "positionele codering".

Self-attention: Dit mechanisme stelt het model in staat om te bepalen welke delen van de input (in dit geval tekst) het meest relevant zijn voor het voorspellen van het volgende token. Self-attention geeft het model de mogelijkheid om verschillende gewichten toe te kennen aan verschillende delen van de input, afhankelijk van de mate waarin ze bijdragen aan het begrip van de huidige context. Dit mechanisme is van cruciaal belang voor het begrijpen van langere zinnen en het vastleggen van complexe relaties tussen woorden en zinsdelen.

Self-attention⁠

Positionele codering: Aangezien de Transformer-architectuur geen ingebouwd gevoel van orde of positie heeft (in tegenstelling tot bijvoorbeeld

LSTM⁠

‘s, die sequentiële gegevens verwerken door middel van een keten van verborgen toestanden), wordt positionele codering gebruikt om informatie over de volgorde van de woorden in een zin aan het model te geven. Dit wordt bereikt door een speciale codering toe te voegen aan de input van het model, die informatie bevat over de positie van elk woord in de zin. Deze positionele informatie stelt het model in staat om de juiste context te begrijpen en beter te presteren bij het verwerken van sequentiële gegevens.

Positionele codering⁠

De Transformer-architectuur bestaat uit een stapel "lagen" die elk self-attention en positionele codering combineren om de input te verwerken en een output te genereren. GPT-4 maakt gebruik van een diep neuraal netwerk met meerdere van deze Transformer-lagen om complexe taalpatronen en structuren te leren en te begrijpen.

In het kort zorgt de Transformer-architectuur ervoor dat GPT-4 effectief sequentiële gegevens kan verwerken, zoals tekst, en in staat is om de complexe relaties en structuren in natuurlijke taal te begrijpen en te genereren. Dit is cruciaal voor het vermogen van GPT-4 om mensachtige antwoorden en inzichten te bieden op basis van de input die het model ontvangt.

Gallery

Want to print your doc?
This is not the way.

Try clicking the ⋯ next to your doc name or using a keyboard shortcut (

CtrlP

) instead.