En teknisk omdaning som kan förändra hur AI-system genererar, filtrerar och resonerar över syntetisk data.
Syntetisk data har blivit en av AI-världens viktigaste råvaror. När stora språkmodeller tränas och förbättras i allt snabbare cykler är traditionella datasamlingar inte längre tillräckliga – modeller behöver simulera samtal, resonemang, verktygskedjor och redigeringsflöden i massiv skala. Men dagens pipelines är ofta byggda kring centrala orkestratorer som snabbt blir flaskhalsar när tiotusentals parallella dialoger ska processas.
Meta AI presenterar Matrix, ett decentraliserat ramverk som placerar flödeslogik och tillstånd direkt i meddelanden som vandrar mellan statslösa agenter. Det låter simpelt, men i praktiken innebär det ett brott med hur syntetiska dataprocesser traditionellt designats. Resultatet? En hastighetsökning på 2 till 15 gånger jämfört med etablerade system – utan att tumma på outputkvaliteten.
Från central server till distribuerat tankesätt
I de flesta befintliga multiagentsystem sitter en central kontrollpunkt som:
- håller koll på arbetsflödet
- hanterar retrys
- dirigerar agentanrop
- lagrar mellansteg
Problemet: när tusentals samtidiga syntetiska dialoger ska köras växer köerna snabbt och dyr GPU-tid går till spillo i väntan på koordination.
Matrix gör tvärtom.
Det centrala tillståndet serialiseras in i ett objekt – kallat orchestrator – som flyttas genom systemet som ett meddelande. Agenterna, implementerade som Ray-aktörer, är statslösa och plockar upp en orchestrator ur en distribuerad kö, utför sin roll (ex. ”Reason”, ”Judge”, ”Filter”), uppdaterar tillståndet och skickar det vidare till nästa agent.
Ingen samordning. Ingen global väntan. Ingen flaskhals.
Det innebär att varje individuellt flöde kan röra sig i sin egen takt, vilket är avgörande när syntetiska resonemang varierar kraftigt i längd.
Ett systemlager byggt för verkliga workloads
Matrix bygger på en teknikstack som är både industrialiserad och öppen:
- Ray för distribuerade aktörer och köer
- Ray Serve som huserar LLM-slutpunkter via vLLM eller SGLang
- Apptainer-containers isolerar verktyg, API-anrop och utvärderare
- Hydra för konfiguration
- Grafana + Ray-metrics ger realtidsinsikter i kölängd, GPU-utnyttjande och throughput
En särskilt viktig innovation är message offloading. När dialoghistorik eller datakontext blir för stor lagras bulkdelen i Rays object store, medan orchestratorn bara får en referens. Detta minskar nätverksbandbredd kraftigt – utan att agenterna tappar förmågan att rekonstruera hela kontexten.
Fallstudier: verkliga resultat i massiv skala
Meta presenterar tre case studies som visar hur Matrix beter sig i verklighetens experimentmiljöer.
1. Collaborative Reasoner (Coral) – multiagent-resonemang i stor skala
Två LLM-agenter resonerar kring samma fråga, utvärderar varandras antaganden och når en slutsats. I originalet dirigeras varje steg av en central controller.
Matrix ersätter detta med peer-to-peer-orkestratorer.
På 31 A100-noder:
- 12 400 parallella konversationer
- Med LLaMA 3.1 8B Instruct
- Producerar ~2 miljarder tokens på 4 timmar
Baseline: Ca 0,62 miljarder tokens på 9 timmar.
⟶ 6,8× högre throughput med bibehållen kvalitet.
2. NaturalReasoning – filtrerad webbdatasamling
Här används tre Matrix-agenter:
- Filter Agent – plockar ut resonemangstunga engelska passager
- Score Agent – kvalitetspoäng med större modell
- Question Agent – extraherar frågor, svar och resonemang
På 25 miljoner dokument:
- 5,45 % klarar hela pipeline
- ~1,19 miljoner högkvalitativa QA-par skapas
Genom att kombinera data- och uppgiftsparallellism når Matrix:
- 161 % högre throughput jämfört med ren task concurrency
- Totalt 2,1× snabbare än Ray Data-baslinjen
Utan förändrade modeller – strikt systemoptimering.
3. Tau2-Bench – verktygsanvändning i simulerade supportsamtal
Miljön består av:
- användarsimulator
- assistentmodell
- verktygsexekverare
- reward-beräkning
- ett ”sink”-lager
På 13 H100-noder:
- 22 800 trajectories på 1,25 timmar
- ~41 000 tokens/sekund
Baseline: 2 654 tokens/sekund
⟶ 15,4× snabbare, med nästan identisk uppnådd reward.
Analys: är Matrix nästa steg i LLM-systemutvecklingen?
Matrix markerar ett skifte i hur man ser på AI-systemdesign 2025:
1. Systemdesign slår modellstorlek
Casen visar tydligt att rå modellkraft inte är flaskhalsen – det är orkestrering.
Genom att ta bort centraliserad logik frigörs GPU-resurser som annars går förlorade i väntan.
2. Multi-agent blir standard
Både RAG, reasoning, verktygsanvändning och datakuration rör sig mot multi-agent-struktur.
Matrix ger en generisk runtime för sådana arbetsflöden.
3. Från specialskript till produktionsverktyg
Tidigare multi-agent experiment kördes via skräddarsydda Python-script. Matrix gör processen:
- robust
- reproducerbar
- skalbar
- lätt att övervaka
- lätt att containerisera
4. Decentralisering är inte bara ett modeord
I Matrix är decentralisering inte ideologi – det är en praktisk optimering.
Genom att behandla varje syntetiskt flöde som en individuell state machine som förflyttas mellan statslösa agenter uppstår en mer naturlig parallellism.
Key Takeaways
- Matrix ersätter centraliserade controllers med peer-to-peer-orkestratorer som flyttar logik och data direkt mellan agenter.
- Öppen källkod hela vägen: SLURM, Ray, vLLM, SGLang, Apptainer.
- Designad för syntetiska dialoger, reasoning chains, benchmarking och datakuration i massiv skala.
- Ger 2–15× högre throughput än etablerade system med identisk hårdvara.
- Offloading av långa kontexttrådar till Rays object store minskar nätverksbelastning och gör pipeline mer effektiv.
- Visar att framtidens AI-skalning handlar om systemarkitektur – inte bara större modeller.
