Hur fungerar AI? — Tekniken bakom moderna AI-modeller

Du har förmodligen använt ChatGPT, Claude eller Gemini och märkt att de svarar nästan som en människa — ibland briljant, ibland helt fel. Men vad händer egentligen inuti? Den här guiden är en teknisk genomgång av hur moderna AI-modeller faktiskt fungerar, skriven för dig som inte nöjer sig med "det lär sig som en hjärna"-förklaringen men heller inte vill läsa ett akademiskt paper.

Vi börjar med grunderna i neurala nätverk, rör oss igenom transformer-arkitekturen som förändrade allt, och landar i varför modeller ibland hittar på fakta med total självförtroende. Längs vägen förklaras tokens, embeddings, RLHF och varför träning av en stor modell kostar mer än en villa i Djursholm.

Neurala nätverk — lager av matematik, inte biologi

Ett neuralt nätverk är i grunden en serie matematiska funktioner staplade på varandra. Tänk dig indata — exempelvis ett ord — som ett tal eller en vektor av tal. Dessa tal skickas genom lager av beräkningar där varje lager tillämpar viktade summor och en aktiveringsfunktion (en enkel matematisk formel som avgör om ett "neuron" ska aktiveras eller inte). Resultatet skickas vidare till nästa lager, och till slut producerar nätverket ett utfall: en prediktion, en klassificering, ett nästa ord.

Det som gör neurala nätverk användbara är träning. Nätverket börjar med slumpmässiga vikter — i praktiken är det bara brus. Sedan matas det med exempeldata, och för varje exempel beräknas ett fel: hur fel var prediktionen? Den tekniken som justerar vikterna heter gradient descent — nätverket beräknar i vilken riktning varje vikt bör förändras för att minska felet, och tar ett litet steg i den riktningen. Det här upprepas miljarder gånger. Gradvis blir prediktionerna bättre.

En djup förståelse för vad AI är — och inte är — hjälper dig tolka vad som pågår. Vad är AI? ger en bra bakgrund om du vill ha det mer grundläggande perspektivet innan du dyker djupare.

Transformern — arkitekturen som förändrade allt

Fram till 2017 dominerade återkopplade nätverk (RNN:er och LSTM:er) vid språkbehandling. De hade ett grundläggande problem: de processade text sekventiellt, ord för ord, vilket begränsade både hastighet och förmågan att hålla reda på långväga samband i en text.

2017 publicerade Google-forskare pappret "Attention Is All You Need" och introducerade transformer-arkitekturen. Den centrala mekanismen heter self-attention och fungerar ungefär så här: när modellen bearbetar ett ord i en mening beräknar den hur relevant varje annat ord i meningen är för just det ordet. "Bank" i "jag gick till banken för att ta ut pengar" ska kopplas ihop med "pengar", inte "gick". Self-attention gör det möjligt att beräkna sådana samband parallellt för hela sekvensen på en gång — inte sekventiellt.

Det gav tre stora fördelar:

Parallellisering — hela sekvensen bearbetas samtidigt, vilket gör träning på GPU:er dramatiskt mycket snabbare.
Långväga beroenden — modellen kan koppla samman information från början och slutet av en lång text utan att "glömma" längs vägen.
Skalbarhet — arkitekturen fungerar bra med fler parametrar och mer data, vilket ledde till GPT-seriens explosiva skalning.

Nästan alla stora språkmodeller idag — GPT-4o, Claude Opus 4.7, Gemini 2.5 Pro — bygger på transformer-arkitekturen eller varianter av den.

Tokens och embeddings — hur modellen ser text

Modeller läser inte text som du och jag gör. De arbetar med tokens, vilket är textbitar som kan vara ett ord, en del av ett ord eller ett skiljetecken. Ordet "förändring" kan bli två tokens: "förändring" eller "för" + "ändring", beroende på modell. GPT-4 använder ungefär 100 000 unika tokens i sitt vokabulär. En tumregel är att 1 000 tokens motsvarar ungefär 750 ord på engelska — lite färre på svenska eftersom svenska ord tenderar att tokeniseras till fler bitar.

Varför spelar tokens roll i praktiken? Dels för att API-prissättning baseras på antal tokens (input och output räknas separat), dels för att modeller har ett kontextfönster — ett maxantal tokens de kan hålla i "arbetsminnet" samtidigt. GPT-4o har ett kontextfönster på 128 000 tokens, Gemini 2.5 Pro når upp till en miljon.

Innan tokens bearbetas konverteras de till embeddings — täta vektorer av tal, typiskt med hundratals eller tusentals dimensioner. Varje token representeras som en punkt i ett högt-dimensionellt rum, och modellen lär sig placera liknande tokens nära varandra. "Kung" och "drottning" hamnar nära varandra, och skillnaden i position speglar genus-relationen. Det är i detta vektorrum som all semantisk förståelse kodas — inte i ord, utan i geometri.

Träning vs inferens — och varför det kostar miljoner

Träning är processen där modellen lär sig från data. För en stor språkmodell innebär det att processa biljoner tokens — text från internet, böcker, kod, vetenskapliga artiklar — och iterativt justera hundratals miljarder parametrar via gradient descent. GPT-3 uppskattades kosta runt 4–5 miljoner dollar att träna. Träning av GPT-4 rapporterades kosta över 100 miljoner dollar. Kostnaderna drivs av tre faktorer: datamängd, modellstorlek och beräkningstid.

Beräkningarna kräver specialiserad hårdvara. GPU:er (Graphics Processing Units, ursprungligen byggda för spel) och TPU:er (Googles egna Tensor Processing Units) är optimerade för matrismultiplikation — precis den operation som dominerar i neurala nätverk. En NVIDIA H100, standardkortet för AI-träning, kostar runt 30 000 dollar styck. Träning av en stor modell kan kräva tusentals sådana kort körandes i veckor.

Inferens är när du faktiskt använder en färdigtränad modell — du skickar en prompt, modellen genererar ett svar. Det är också beräkningstungt, men betydligt billigare per operation än träning eftersom vikterna är fasta och inga gradienter behöver beräknas. Det är inferenskostnaden som styr priset på API-anrop: Claude Opus 4.7 kostar till exempel flera dollar per miljon output-tokens.

Den autoregressiva genereringen — hur modellen faktiskt producerar text — är sekventiell: vid varje steg predicerar modellen det mest sannolika nästa tokenet givet alla föregående tokens. Det är därför svaret "skrivs" successivt snarare än dyker upp på en gång.

RLHF — hur modeller formas att bete sig

En råtränad språkmodell är bra på att fortsätta text i stil med träningsdatan, men den är inte automatiskt hjälpsam, ärlig eller säker. Den kan lika gärna fortsätta en hatisk text som en nyttig instruktion. Det är här RLHF — Reinforcement Learning from Human Feedback — kommer in.

Processen fungerar i tre steg:

Supervised fine-tuning. Mänskliga tränare skriver exempelsvar på frågor och instruktioner. Modellen finjusteras på dessa exempel för att lära sig formatet för hjälpsamma svar.
Reward model-träning. Mänskliga bedömare rankar par av modellsvar — vilket är bättre? En separat modell tränas på dessa rankningar för att predicera vilket svar en människa skulle föredra.
RL-optimering. Den ursprungliga modellen finjusteras med reinforcement learning: den belönas när den producerar svar som reward-modellen bedömer som bra, och straffas för dåliga svar.

RLHF är anledningen till att ChatGPT och Claude svarar på ett visst sätt — artig, strukturerad, med tendens att avböja vissa frågor. Det är också anledningen till att modellernas beteende kan skilja sig markant trots liknande grundarkitektur. Anthropics Constitutional AI (använd i Claude) är en variant där modellen delvis tränas mot explicita riktlinjer snarare än enbart mänskliga preferenser.

Varför modeller hallucinerar

Hallucination — när modellen presenterar falsk information med full övertygelse — är ett direkt resultat av hur genereringen fungerar. Modellen predicerar inte "det sanna svaret", den predicerar "det nästa token som är statistiskt sannolikt givet kontexten". Om träningsdatan innehåller många exempel på en viss typ av formulering, kommer modellen att reproducera den strukturen — oavsett om det specifika innehållet är korrekt.

Det finns ingen inbyggd mekanism för att skilja på "jag vet detta" och "jag gissar detta". Modellen har inga externa sanningskällor att konsultera under generering (om inte verktyg som webbsökning kopplas in explicit). Faktum, osäkerhet och påhitt produceras via exakt samma mekanism — autoregressiv tokenprediktion.

Hallucination är vanligare vid specifika fakta (datum, namn, citat) än vid generella resonemang, och minskar när modeller kopplas till retrieval-system som ger dem faktaunderlag att utgå från. Men det försvinner inte — och det är anledningen till att du bör verifiera faktapåståenden från AI-modeller, särskilt i kritiska sammanhang.

Hur du formulerar dina prompts påverkar också hur ofta en modell hallucinerar. Att prompta bättre handlar delvis om att ge modellen rätt kontext och tydliga avgränsningar, vilket minskar utrymmet för modellen att fylla luckor med gissningar.

Nästa steg

Du har nu en teknisk grundbild av hur moderna AI-modeller fungerar: transformer-arkitekturen som gör parallell bearbetning möjlig, tokens och embeddings som representerar text som matematik, den kostsamma träningsprocessen på specialiserad hårdvara, RLHF som formar hur modeller beter sig, och den autoregressiva generering som förklarar varför hallucination är ett strukturellt problem snarare än en bugg som kan patchas bort.

Om du vill tillämpa den här förståelsen praktiskt är AI-kodverktygen ett konkret område där du ser tekniken i arbete — modeller som GitHub Copilot och Cursor använder exakt samma grundarkitektur för att predicera kod. För den som är nyfiken på vart arkitekturutvecklingen är på väg — längre kontextfönster, multimodalitet, effektivare träningsmetoder — ger Framtidens AI en översikt av de trender som formar nästa generation modeller.