AIMagasinet
Teknik & Modeller

NVIDIA lanserar Orchestrator-8B – AI-hjärna som lär sig välja rätt verktyg och modell för varje uppgift

NVIDIA presenterar nu ToolOrchestra – ett nytt ramverk för AI-agenter där en liten modell, Orchestrator-8B, fungerar som systemets

Nicklas Hallberg-porträtt
Av
Nicklas Hallberg
Grundare & Chefredaktör

NVIDIA presenterar nu ToolOrchestra – ett nytt ramverk för AI-agenter där en liten modell, Orchestrator-8B, fungerar som systemets hjärna. I stället för att ett enda stort språkmodellsystem ska försöka lösa allt på egen hand, lär sig Orchestrator-8B att välja vilket verktyg, vilken modell eller vilket API som bör användas i varje steg av en uppgift.

Resultatet är en agent som arbetar snabbare, mer kostnadseffektivt och betydligt mer träffsäkert än när t.ex. GPT-5 låter alla beslut stanna inom samma modell.

NVIDIA AI Releases Orchestrator-8B

Problemet: stora modeller överanvänder sig själva

I dagens typiska AI-agenter gör en stor modell allt: planering, verktygsval, verkställande och analys. NVIDIA visar i sina studier att detta skapar två tydliga snedvridningar:

  • Self-enhancement bias: modellen väljer nästan alltid sig själv även när billigare eller snabbare modeller vore bättre.
  • Other-enhancement bias: modeller tenderar att favorisera andra starka modeller, oavsett kostnad.

När t.ex. Qwen3-8B får välja mellan flera modeller delegerar den 73 % av fallen till GPT-5.
När GPT-5 får agera som sin egen “orchestrator” väljer den GPT-5 eller GPT-5-mini i 98 % av alla fall.

Det gör systemet både långsammare och dyrare.


Lösningen: Orchestrator-8B – en 8B-modell som styr alla verktyg

Orchestrator-8B är en relativt liten, 8-miljarders-modell tränad specifikt för att styra vilka verktyg som ska användas i vilket steg.
Den hanterar bland annat:

  • Sökmotorer
  • Kodkörning via python-sandbox
  • Lokala vektorindex med Faiss
  • Specialiserade LLM:er (t.ex. matematik- och kodmodeller)
  • Generalist-LLM:er som GPT-5, Claude Opus, Qwen-modeller
  • API-anrop och funktioner

Till skillnad från stora modeller är Orchestrator-8B tränad för att väga kostnad, hastighet och noggrannhet – i stället för att bara välja “starkaste modell”.


Hur systemet arbetar – steg för steg

NVIDIAs ToolOrchestra körs i tre återkommande steg:

  1. Förstå uppgiften
    Orchestrator-8B läser användarens instruktion och valfria preferenser, t.ex. “prioritera låg kostnad”.
  2. Resonera och planera
    Modellen skapar intern reasoning (chain-of-thought) och planerar vilken åtgärd som bör tas härnäst.
  3. Välja rätt verktyg
    Därefter returnerar den ett strukturerat verktygsanrop i JSON-format. Miljön kör anropet och ger resultatet tillbaka till modellen.

Processen fortsätter i upp till 50 steg tills uppgiften är löst.


Tränad med förstärkningsinlärning – med flera mål samtidigt

ToolOrchestra använder reinforcement learning med tre belöningskomponenter:

  • Utfall: om systemet löser uppgiften korrekt.
  • Effektivitet: kostnad och latens straffas eller belönas.
  • Preferenser: t.ex. att undvika vissa verktyg eller prioritera snabbhet.

Träningen använder GRPO (Group Relative Policy Optimization), en metod som stabiliserar träningen genom att normalisera belöningar för samma uppgift.


Benchmarkresultat – Orchestrator-8B slår GPT-5 trots mindre storlek

NVIDIA testade systemet på tre tunga benchmarktester:

Humanity’s Last Exam

  • Orchestrator-8B: 37,1 %
  • GPT-5 med verktyg: 35,1 %

FRAMES (faktakontroll + retrieval + reasoning)

  • Orchestrator-8B: 76,3 %
  • GPT-5 med verktyg: 74,0 %

τ² Bench (funktion-anrop + kontroll)

  • Orchestrator-8B: 80,2 %
  • GPT-5 med verktyg: 77,7 %

Effektiviteten är den stora vinsten

När båda systemen hade tillgång till samma verktyg visade resultaten:

  • Kostnad: Orchestrator-8B kostar ca 30 % av GPT-5
  • Hastighet: Orchestrator-8B är 2,5× snabbare
  • Tool-routing: GPT-5 använder främst GPT-5
    Orchestrator-8B fördelar verktyg balanserat och smart.

Generaliserar även till verktyg den inte tränats på

NVIDIA testade även att byta ut modellerna mot helt nya, exempelvis:

  • DeepSeek-Math
  • Gemma-3
  • Codestral
  • Claude Sonnet
  • OpenMath Llama

Trots att dessa var “osynliga” under träningen presterade Orchestrator-8B bäst sett till kombinationen noggrannhet, kostnad och latens.


AI-Magasinets Slutsats

NVIDIA:s Orchestrator-8B är ett tydligt steg mot framtidens AI-system där:

  • En liten modell fungerar som dirigent
  • Större modeller och verktyg används selektivt
  • Kostnad och hastighet kan styras
  • Bias att överanvända “starkaste modellen” elimineras

För verksamheter som vill kombinera hög precision med låga kostnader är Orchestrator-8B en viktig utveckling – och sannolikt starten på en helt ny generation av “compound AI”.

Taggar:nvidia