Je hebt een klacht over de onderstaande posting:
In een ander artikel kwam ik een mooie illustratie tegen van het soort zwakheden in LLMs die die gevoeligheid voor prompt-injectie in de hand werken. Onderzoekers hebben dingen gedaan als de grammaticale structuur van een vraag behouden maar de woorden door onzin vervangen. Men heeft bijvoorbeeld de vraag "Where is Paris located?" vervangen door "Quickly sit Paris clouded?" en LLMs (meervoud) antwoordden in beide gevallen met "France". Met andere woorden: de LLM (of het trainen ervan) baseert zich niet op werkelijk de hele vraag en wat die betekent, maar op net genoeg om bij het goede antwoord uit te komen, en kennelijk is de zinsstructuur met "Paris" als derde woord hier al genoeg voor. Dat illustreert op wat voor flinterdunne basis die dingen eigenlijk opereren, het antwoord op de vraag is meer gebaseerd op structurele hints dan op betekenis. Vervolgens nemen ze als voorbeeld de vraag om een interview doelbewust te verknallen ("bomb an interview"). Als je dat rechtstreeks vraagt weigeren de LLMs te ...
Beschrijf je klacht (Optioneel):