Den siste tiden har generativ kunstig intelligens (KI) opplevd en betydelig utvikling med fremveksten av diffusjonsbaserte modeller, spesielt innen tekstgenerering. Jeg har sett litt på de tekniske grunnlagene for diffusjonsmodeller og fått hjelp av KI til å analysere Inception Labs’ banebrytende Mercury dLLM (diffusjonsbasert stor språkmodell), og evaluere dens konkurranseposisjon mot tradisjonelle autoregressive språkmodeller (LLM-er). Det gir et flerfoldig perspektiv på hvordan diffusjonsmodeller redefinerer fremtiden for KI.
Grunnprinsipper for diffusjonsmodeller i KI
Diffusjonsmodeller er basert på prosessen av molekylær diffusjon, der partikler sprer seg fra områder med høy konsentrasjon til områder med lav konsentrasjon. Innen maskinlæring snus dette konseptet på hodet; modeller lærer å rekonstruere data ved gradvis å fjerne støy fra tilfeldige innganger. Prosessen består av to faser: fremover-diffusjon, der treningsdata gradvis korrumperes gjennom tilsetning av Gaussisk støy (tilfeldige variasjoner eller forstyrrelser i data, en teknikk mye brukt i bildebehandling og maskinlæring) over flere tidstrinn, og omvendt prosess, der nevrale nettverk trenes for å iterativt fjerne støy og gjenvinne den originale datadistribusjonen.
En ny æra innen tekstgenerering
Inception Labs’ Mercury representerer den første kommersielt levedyktige implementeringen av diffusjonsprinsipper for tekstgenerering. Systemet som er utviklet av forskere ved Stanford, benytter en tretrinnsprosess som gjør det i stand til å oppnå over 1 000 tokens per sekund – en imponerende hastighet sammenlignet med GPT-4o, som genererer 85 tokens per sekund. Det er verdt å merke seg at modellen opprettholder kvalitetssammenligning med ledende LLM-er på MT-Bench og HumanEval-programmeringsvurderinger.
Konkurransefordeler med diffusjonsmodeller
Inception Labs’ strategi fokuserer på tre kjernefordeler: beregningsmessige fordeler over tradisjonelle arkitekturer, kostnadseffektivitet og sanntidsresponsivitet. Diffusjonsmodeller muliggjør parallell prosessering, noe som reduserer minnefotavtrykket og gir dynamisk beregningsallokering – noe som ikke er mulig i faste sekvensbaserte LLM-er. Dette resulterer i en 10x reduksjon i inferenskostnader sammenlignet med tilsvarende LLM-er.
Forskjeller mellom DLM-er og LLM-er
Diffusjonsbaserte språkmodeller (DLM-er) skiller seg fra store språkmodeller (LLM-er) på flere måter. DLM-er genererer tokens parallelt gjennom denoising-kjeder og har en dynamisk beregningsallokering basert på forespørselens kompleksitet. I motsetning til dette genererer LLM-er tokens sekvensielt, noe som kan føre til flaskehalser i databehandling. Dette gjør DLM-er spesielt attraktive for applikasjoner som krever høy gjennomstrømning og lav ventetid.
Konkurransedyktig landskap og fremtidsutsikter
Per første kvartal 2025 er det ingen andre bedriftsmodeller for diffusjonsbaserte språkmodeller som konkurrerer direkte med Mercury. Imidlertid er det flere tilnærminger som tar sikte på å redusere begrensningene til autoregressive modeller. Gartner forutser at diffusjonsmodeller vil fange 22 % av det generative tekstmarkedet innen 2026, spesielt innen automatisering av kundeservice og sanntidsanalyse. Inception har en førstekommerfordel med 18 måneders ledelse innen forskning på diffusjonsbaserte tekstmodeller.
Utfordringer og utviklingsplaner
Til tross for sine fordeler har DLM-er nåværende begrensninger, som narrativ sammenheng og følsomhet for komplekse oppgaver. Fremover planlegger Inception å utvikle multimodale diffusjonsmodeller som støtter tekst- og bilde-samproduksjon, med en målsetning om å skape 4,2 milliarder dollar i årlig gjentakende inntekt innen 2027.
Mine tanker
Fremveksten av diffusjonsbaserte tekstgenereringsmodeller som Mercury representerer et vendepunkt for generativ KI. Med denne teknikken har Inception Labs vist at radikal arkitektonisk innovasjon kan overvinne det som tidligere ble ansett som fundamentale begrensninger i transformer-baserte LLM-er. På kort sikt vil de tradisjonelle autoregressive modellene fortsatt være best når man skal skrive kreative tekster eller gjøre kompliserte resonnementer. Samtidig ser det ut til at diffusjonsmodellen blir et førstevalg for store bedrifter som trenger kraftige KI-løsninger.
Etter hvert som teknologien utvikler seg, kan vi forvente at diffusjons- og transformerarkitekturer smelter mer sammen. Det kan føre til at nye «hybridmodeller» som kombinerer rask, parallell tekstgenerering med dyp kontekstforståelse, blir neste steg. Mercury gir et godt forhold mellom kostnad og ytelse, noe som gjør den attraktiv for kundeorienterte KI-systemer der både svartid og ressursbruk har stor betydning for lønnsomheten.
Diffusjonsrevolusjonen i tekstgenerering har startet, og dens konsekvenser vil forme KI-landskapet i årene som kommer.