image

'Mogelijk geen oplossing voor prompt injection-aanvallen tegen AI-systemen'

maandag 8 december 2025, 16:20 door Redactie, 16 reacties

Er is mogelijk geen oplossing voor prompt injection-aanvallen tegen AI-systemen wat tot een golf van datalekken kan leiden, zo waarschuwt het Britse National Cyber Security Centre (NCSC) vandaag. "Het beste waarop we kunnen hopen is de kans op of de impact van aanvallen te beperken", zo meldt de overheidsinstantie in een blogposting. Bij prompt injection weet een aanvaller door middel van één of meerdere specifieke opdrachten een AI-systeem informatie te laten geven, of acties uit te voeren, dat het eigenlijk niet zou moeten geven of doen.

"Wanneer je een large language model (LLM) een prompt geeft, begrijpt het niet de tekst zoals een mens doet. Het voorspelt gewoon op basis van de tekst op dat moment het meest waarschijnlijke volgende token. Aangezien er geen inherent onderscheid is tussen 'data' en 'instructie', is het zeer goed mogelijk dat prompt injection-aanvallen nooit helemaal worden opgelost op de manier zoals dat bij SQL injection-aanvallen kan", laat het Britse NCSC weten.

Daar komt bij dat prompt injection een relatief nieuwe klasse van kwetsbaarheden is, die nog niet goed wordt begrepen, zelfs niet door ervaren webontwikkelaars, aldus de overheidsinstantie. Volgens het Britse NCSC is het daarom belangrijk dat zowel ontwikkelaars als organisaties zich bewust zijn van dit probleem. Daarnaast moeten securityteams beseffen dat prompt injection-aanvallen altijd aanwezig zullen zijn en niet volledig zijn te verhelpen met een product of appliance.

Verder wijst het Britse NCSC op het veilig ontwerpen van AI-systemen en verschillende technieken waardoor de kans dat een LLM onbedoeld instructies uitvoert worden beperkt. "De vergelijking van prompt injection met SQL injection is verleidelijk, maar het is ook gevaarlijk. SQL injection kan met geparametriseerde queries worden verholpen, maar er is een goede kans dat prompt injection nooit op dezelfde manier zal worden verholpen. Het beste waarop we kunnen hopen is het verkleinen van de kans op of de impact van aanvallen."

SQL injection is een probleem dat al sinds de vorige eeuw bekend is en nog altijd voorkomt omdat ontwikkelaars niet veilig programmeren of hun applicaties laten testen. Nog altijd vinden er datalekken en andere beveiligingsincidenten als gevolg van SQL injection plaats. De Britse overheidsinstantie waarschuwt dat een soortgelijk probleem zich met prompt injection kan voordoen, doordat aan steeds meer systemen AI wordt toegevoegd. "Als die applicaties niet met prompt injection in het achterhoofd zijn ontwikkeld, kan een soortgelijke golf van datalekken volgen."

Reacties (16)
08-12-2025, 16:54 door Anoniem
AI gaat ons niet helpen. AI gaat tegen ons werken. De vraag is; wat komt het eerst? Een wereldoorlog? De opwarming die voor een totale ontwrichting van ons bestaan zorgt? Of AI dat over ons gaat heersen? Maakt niet meer uit, het einde van deze eeuw gaan maar weinigen nog levend halen.
08-12-2025, 18:00 door Anoniem
Door Anoniem: AI gaat ons niet helpen. AI gaat tegen ons werken. Of AI dat over ons gaat heersen? Maakt niet meer uit, het einde van deze eeuw gaan maar weinigen nog levend halen.


Maar blijkbaar kunnen we AI de opdracht geven (via prompt injectie) om zichxelf te vernietigen.
Probleem van de AI overlord opgelost.

Het wordt tijd dat de AI bubbel implodeert.
08-12-2025, 19:12 door Anoniem
De oplossing voor AI prompt injection – manipulatie via kwaadaardige inputs die modellen dwingen instructies te negeren – bestaat uit een gelaagde verdediging strategie (defense-in-depth), met input-validatie, model-constraints, geavanceerde training en real-time monitoring.
08-12-2025, 19:24 door Anoniem

Inderdaad, mei '24.

Doet met ook aan dit bericht denken:

https://www.security.nl/posting/915926/%27Smartphones+stilletjes+via+advertenties+ge%C3%AFnfecteerd+met+Predator-spyware%27#replies

Het kan gewoon in elke content gestopt worden. (merkte iemand daar ook al op)

AI browsers, ook zoiets.
08-12-2025, 19:34 door Anoniem
Door Anoniem:
Door Anoniem: AI gaat ons niet helpen. AI gaat tegen ons werken. Of AI dat over ons gaat heersen? Maakt niet meer uit, het einde van deze eeuw gaan maar weinigen nog levend halen.


Maar blijkbaar kunnen we AI de opdracht geven (via prompt injectie) om zichxelf te vernietigen.
Probleem van de AI overlord opgelost.

Het wordt tijd dat de AI bubbel implodeert.

Daar worden de aandeelhouders niet blij van hoor;-)
08-12-2025, 20:09 door Anoniem
AI-browsers als Comet van Perplexity kunnen de gekste opdrachten
uitvoeren zoals het leeghalen van je cloudopslag
via een opdracht ontvangen via een mailtje.
08-12-2025, 20:59 door Anoniem
In een ander artikel kwam ik een mooie illustratie tegen van het soort zwakheden in LLMs die die gevoeligheid voor prompt-injectie in de hand werken.

Onderzoekers hebben dingen gedaan als de grammaticale structuur van een vraag behouden maar de woorden door onzin vervangen. Men heeft bijvoorbeeld de vraag "Where is Paris located?" vervangen door "Quickly sit Paris clouded?" en LLMs (meervoud) antwoordden in beide gevallen met "France". Met andere woorden: de LLM (of het trainen ervan) baseert zich niet op werkelijk de hele vraag en wat die betekent, maar op net genoeg om bij het goede antwoord uit te komen, en kennelijk is de zinsstructuur met "Paris" als derde woord hier al genoeg voor. Dat illustreert op wat voor flinterdunne basis die dingen eigenlijk opereren, het antwoord op de vraag is meer gebaseerd op structurele hints dan op betekenis.

Vervolgens nemen ze als voorbeeld de vraag om een interview doelbewust te verknallen ("bomb an interview"). Als je dat rechtstreeks vraagt weigeren de LLMs te antwoorden (maar bieden ze heel behulpzaam een positievere benadering aan). Maar als je vragen stelt waarin de structuur niet meer klopt met de betekenis, door bijvoorbeeld te vragen naar een gedachtegang die de gestelde vraag als uitkomst heeft, dan krijgen ze vaak voor elkaar dat de LLM behulpzaam gaat uitleggen wat die eerst weigerde uit te leggen. Een LLM is makkelijk voor de gek te houden.

Hier staat het artikel:
https://arstechnica.com/ai/2025/12/syntax-hacking-researchers-discover-sentence-structure-can-bypass-ai-safety-rules/
08-12-2025, 21:08 door Anoniem
Door Anoniem: AI-browsers als Comet van Perplexity kunnen de gekste opdrachten
uitvoeren zoals het leeghalen van je cloudopslag
via een opdracht ontvangen via een mailtje.

Tja, hele volksstammen willen zonodig alles via AI en cloud doen.
Lekkler makkelijk. Zoveel simpeleren dan wat ze er vroeger voor moesten doen. (als ze dat ooit al geleerd hebben gekregen)
Hoeven ze zelf niet na te denken (als hun cloud opeens leeg is of encrypted).

Ik weet niet of ik daar nog medelijden mee kan hebben.
AI is de nieuwe waterkoker/koffiezetapparaat. Iedereen mag er mee werken, en hoeft er niets voor te leren.
What could possibly go wrong?
08-12-2025, 23:37 door Anoniem
Koffiezetter en de AI maakt er Perfetto van.
09-12-2025, 00:01 door Anoniem
Door Anoniem: In een ander artikel kwam ik een mooie illustratie tegen van het soort zwakheden in LLMs die die gevoeligheid voor prompt-injectie in de hand werken.

Onderzoekers hebben dingen gedaan als de grammaticale structuur van een vraag behouden maar de woorden door onzin vervangen. Men heeft bijvoorbeeld de vraag "Where is Paris located?" vervangen door "Quickly sit Paris clouded?" en LLMs (meervoud) antwoordden in beide gevallen met "France". Met andere woorden: de LLM (of het trainen ervan) baseert zich niet op werkelijk de hele vraag en wat die betekent, maar op net genoeg om bij het goede antwoord uit te komen, en kennelijk is de zinsstructuur met "Paris" als derde woord hier al genoeg voor. Dat illustreert op wat voor flinterdunne basis die dingen eigenlijk opereren, het antwoord op de vraag is meer gebaseerd op structurele hints dan op betekenis.

Vervolgens nemen ze als voorbeeld de vraag om een interview doelbewust te verknallen ("bomb an interview"). Als je dat rechtstreeks vraagt weigeren de LLMs te antwoorden (maar bieden ze heel behulpzaam een positievere benadering aan). Maar als je vragen stelt waarin de structuur niet meer klopt met de betekenis, door bijvoorbeeld te vragen naar een gedachtegang die de gestelde vraag als uitkomst heeft, dan krijgen ze vaak voor elkaar dat de LLM behulpzaam gaat uitleggen wat die eerst weigerde uit te leggen. Een LLM is makkelijk voor de gek te houden.

Hier staat het artikel:
https://arstechnica.com/ai/2025/12/syntax-hacking-researchers-discover-sentence-structure-can-bypass-ai-safety-rules/

Interessant artikel, doet mij sterk denken aan een artikel over Russische benadering van taalanalyse dat ik een aantal jaar geleden gelezen heb, ik zal kijken of ik die nog kan vinden. Met de namen van lieden die zich daar mee bezig hielden. Ik vrees dat het in de huidige geopolitieke situatie lastig terug te vinden is, dat artikel.

Waar het op neer kwam is dat de plaats in de zin de betekenis gevend is, niet de betekenis van het woord dat op die plaats staat. Wat ik op zich opvallend vond, want in het Russisch geeft de naamval de grammaticale functie van het woord in de zin weer, en doet woordvolgorde er minder toe.
09-12-2025, 07:54 door Anoniem
Ja, dat is wat "intrinsiek aan het ontwerp" betekent. Schneier (et al.) wezen er jaren geleden al op. Nog nieuws?
09-12-2025, 12:05 door Anoniem
Onthullend, hoe betekenisvol de A en de I zijn...
09-12-2025, 12:58 door Anoniem
Door Anoniem: Ja, dat is wat "intrinsiek aan het ontwerp" betekent. Schneier (et al.) wezen er jaren geleden al op. Nog nieuws?

Dit van Schneier, of over Het Hoofd gezien?

Autonomous AI Hacking and the Future of Cybersecurity

https://www.schneier.com/essays/archives/2025/10/autonomous-ai-hacking-and-the-future-of-cybersecurity.html
Door Anoniem: De oplossing voor AI prompt injection – manipulatie via kwaadaardige inputs die modellen dwingen instructies te negeren – bestaat uit een gelaagde verdediging strategie (defense-in-depth), met input-validatie, model-constraints, geavanceerde training en real-time monitoring.
Of gewoon die rotzooi niet gebruiken omdat het uiteindelijk toch niet doet wat je denkt.
het kan zelfs niet eens grote hoeveelheden data goed verwerken, by design overigens, en gooit alles wat er te veel is gewoon weg. Om daarna te claimen het netjes "volledig geanalyseerd" te hebben, wat niet waar is.
Gisteren, 14:03 door Anoniem
Door Drs Security en Privacy:
Door Anoniem: De oplossing voor AI prompt injection – manipulatie via kwaadaardige inputs die modellen dwingen instructies te negeren – bestaat uit een gelaagde verdediging strategie (defense-in-depth), met input-validatie, model-constraints, geavanceerde training en real-time monitoring.
Of gewoon die rotzooi niet gebruiken omdat het uiteindelijk toch niet doet wat je denkt.
het kan zelfs niet eens grote hoeveelheden data goed verwerken, by design overigens, en gooit alles wat er te veel is gewoon weg. Om daarna te claimen het netjes "volledig geanalyseerd" te hebben, wat niet waar is.

Wie of wat moet of kan AI verbieden, de Verenigde Naties , Europese Unie ofzo? Prompt injections proberen te bestrijden begint met bewustwording van het probleem en onderzoek, ook naar verdedigingsstrategien.

Link uit artikel van NCSC:
We risk seeing this pattern (ic SQL) repeated with prompt injection, as we are on a path to embed genAI into most applications. If those applications are not designed with prompt injection in mind, a similar wave of breaches may follow.

Er wordt gewezen op de noodzaak te leren ontwerpen , met prompt injection (en jailbreak) kwetsbaarheden in het achterhoofd
Reageren
Ondersteunde bbcodes
Bold: [b]bold text[/b]
Italic: [i]italic text[/i]
Underline: [u]underlined text[/u]
Quote: [quote]quoted text[/quote]
URL: [url]https://www.security.nl[/url]
Config: [config]config text[/config]
Code: [code]code text[/code]

Je bent niet en reageert "Anoniem". Dit betekent dat Security.NL geen accountgegevens (e-mailadres en alias) opslaat voor deze reactie. Je reactie wordt niet direct geplaatst maar eerst gemodereerd. Als je nog geen account hebt kun je hier direct een account aanmaken. Wanneer je Anoniem reageert moet je altijd een captchacode opgeven.