Den tekniska utvecklingen de senaste två åren är svår att överdriva när det gäller AI-genererat bild- och filmmaterial. De ”gamla” avslöjande tecknen – flimmer, ansikten som deformerats längs käklinjen, felaktigt antal fingrar och onaturliga ögonrörelser – är i det närmaste borta.
Nutidens videogenereringsmodeller producerar stabila, koherenta ansikten med konsekvent identitet över tid. De separerar med lätthet identitet från rörelse, vilket innebär att samma rörelse kan kopieras till olika personer från ett filmklipp till ett annat, vilket gör det enkelt att få exempelvis en känd politiker att säga och göra vad som helst i högkvalitativt filmmaterial.
Röstkloning har också passerat en kritisk gräns. Det räcker att samla in några sekunders röstinspelning för att kunna generera en övertygande röstklon – komplett med naturlig intonation, rytm, känsla och andningsljud. Barriären för att producera övertygande syntetiska media har i praktiken rasat helt. Vem som helst kan beskriva en idé, låta en AI-tjänst skriva ett manus och generera polerade ljud- och bildmedier på några minuter.
Utvecklingen är tydlig: från ungefär 500 000 (upptäckta!) så kallade ”deepfakes” online 2023 till cirka 8 miljoner 2025 – en ökning på nära 900 procent per år. År 2025 stod deepfakes för 40 procent av alla fall av biometrisk bedrägeri [1].
Vi klarar inte av att skilja falskt från äkta
En metaanalys från 2024, som samlade resultat från 56 studier med 86 155 deltagare, visade att den genomsnittliga förmågan att identifiera AI-genererat innehåll i praktiken inte var bättre än rena gissningar. Människors förmåga att identifiera fejkat material låg på endast 55,5 procent för bilder och 57,3 procent för video (Diel et al., 2024).
Det mest oroande är kanske inte tekniken i sig – utan vad forskningen visar om oss människor. Människor misslyckas oftast med att identifiera AI-genererat innehåll när innehållet bekräftar deras egna politiska uppfattningar (Somoray et al., 2025). Detta, i kombination med den snabba tekniska utvecklingen, ger en förödande effekt: vi är som mest mottagliga för det falska som bekräftar vad vi redan tror.
Samhälleliga konsekvenser vi redan ser
Det finns redan en rad olika typer av väldokumenterade skador. Ingenjörsfirman Arup förlorade 25 miljoner dollar i januari 2024 när en anställd deltog i ett videomöte med en deepfejkad finansdirektör och AI-genererade kollegor – övertygande nog att auktorisera 15 banköverföringar [2].
Inför det amerikanska presidentvalet 2024 spreds AI-skapade telefonsamtal avsedda att hålla väljare hemma. Rysk-koordinerade AI-videofilmer föreställande Kamala Harris spreds för att sprida desinformation. Liknande kampanjer har genomförts vid val i Indien, Brasilien och flera europeiska länder.
Det finns också ett djupare problem med detta. Eftersom många är medvetna om problemet med AI-genererat material uppstår, ironiskt nog, möjligheten att avfärda verkliga bevis och sant innehåll genom att hävda att de kan vara fabricerade. Det är alltså inte bara det felaktiga innehållet, utan även denna ”motreaktion”, som riskerar att urholka ansvarsutkrävande och försvagar de institutioner som är beroende av verifierbart underlag.
Vad som faktiskt kan göra skillnad
Ingen enskild åtgärd räcker dessvärre för att komma tillrätta med AI-genererad desinformation. Samhället behöver ta ett helhetsgrepp om problematiken. I princip finns tre huvudstrategier: teknisk detektion, innehållsmärkning och policy/reglering.
Det rent tekniska detektionsarbetet halkar efter. Även den bästa kommersiella videodetektorn uppnår bara runt 78 procents träffsäkerhet enligt en rapport från 2024 [3]. Modeller tränade på forskningsdataset tappar upp till 50 procent av sin förmåga när de möter verkliga förfalskningar. Att låta mjukvara titta noggrannare på pixlar räcker helt enkelt inte längre.
Det finns innehållsmärkningsinitiativ som till exempel C2PA [4] – Coalition for Content Provenance and Authenticity – som utvecklar öppna tekniska standarder för att verifiera och märka digitalt innehålls ursprung och historik. Detta handlar om kryptografisk signering och spårbara provenanskedjor – alltså inte om vanlig detektion för att analysera om ett ansikte ser konstigt ut eller inte. Men sådana system är än så länge frivilliga och ganska enkla att kringgå. En aktör som använder en öppen källkodsmodell utan vattenstämplings- eller andra märkningskrav omfattas helt enkelt inte.
När det gäller policy och reglering så handlar det i dagsläget ofta om att sätta upp sina egna säkerhetsprotokoll. Arup-scenariot ovan skulle kunna motverkas genom några enkla säkerhetsåtgärder: En telefonkontroll på en separat kanal innan varje stor finansiell auktorisering – oavsett hur övertygande videomötet verkar, multifaktorautentisering för känsliga beslut, och så vidare.
Lagstiftningen är dessvärre fragmenterad i dagsläget. I USA har 46 delstater antagit deepfake-lagstiftning sedan 2022, och EU:s AI Act börjar kräva märkning av AI-genererat innehåll i maskinläsbart format från och med augusti 2026. Men fragmenteringen är en strukturell svaghet – juridik, cybersäkerhetspolitik, finansreglering och AI-styrning opererar fortfarande i silos, vilket skapar luckor som illvilliga aktörer utnyttjar.
Vad vi realistiskt kan uppnå
Det verkar dessvärre inte möjligt att lösa problemet fullständigt. Strategin är istället att höja kostnaden och minska spridningsmöjligheterna – genom standarder, tydliga juridiska konsekvenser för den som skapat deepfakes, detektering på plattformsnivå och inte minst en kulturell förskjutning i hur vi behandlar overifierad video som bevis.
Asymmetrin är ett enormt problem: att generera en övertygande deepfake kostar i det närmaste ingenting och går väldigt fort att göra. Att däremot verifiera autenticitet kräver både infrastrukturinvesteringar, policyarbete och tid. Detta, i kombination med att de företag som tillhandahåller tjänsterna verkar undgå allt ansvar, gör att vi inte är på väg mot en värld där tekniken löser problemet åt oss.
Vi är på väg mot en värld där vi måste bygga upp institutioner, standarder och beteenden som är robusta nog att fungera i verkligheten.
Teknikhistorien är entydig på den här punkten. Forskare som Daron Acemoglu har i decennier argumenterat för att teknologi i sig inte är det som avgör ett samhälles riktning – det gör istället institutioner och reglering. Tryckkonstens spridning ledde inte automatiskt till upplysning; den ledde också till mer effektiv spridning av propaganda. Järnvägen förde inte självklart med sig välstånd – det berodde på vem som ägde spåren och vilka regler som gällde. Internets arkitektur lovade decentralisering och frigörelse; men i slutändan formades dagens oreglerade plattformsmonopol och reklamincitament som ingen teknisk specifikation förutsåg vidden av.
Deepfakes är inget undantag i detta avseende. Ny teknologi kan vara nödvändig för att hantera negativa konsekvenser – men den är aldrig tillräcklig. Det är reglering, institutioner och policy som i slutändan avgör vad ett teknologiskt skifte gör med ett samhälle. Det har alltid varit så. Frågan vi egentligen ställer oss när vi diskuterar deepfakes är därför inte primärt en teknisk fråga. Det är en fråga om vilka institutioner vi är beredda att bygga och försvara.
Referenser
1. https://deepstrike.io/blog/deepfake-statistics-2025
2. https://www.weforum.org/stories/2025/02/deepfake-ai-cybercrime-arup/
3. https://www.emergentmind.com/topics/deepfake-eval-2024
4. https://c2pa.org/
Diel, A., Lalgi, T., Schröter, I. C., MacDorman, K. F., Teufel, M., & Bäuerle, A. (2024). Human performance in detecting deepfakes: A systematic review and meta-analysis of 56 papers. Computers in Human Behavior Reports, 16.
Somoray, K., Miller, D. J., & Holmes, M. (2025). Human performance in deepfake detection: A systematic review. Human Behavior and Emerging Technologies, 2025(1).