image

Hoe verweer je je tegen de uitspraken van de ChatGPT detector?

woensdag 15 november 2023, 11:48 door Arnoud Engelfriet, 18 reacties

Heb jij een interessante vraag op het snijvlak van privacy, cybersecurity en recht? Stuur je vraag naar juridischevraag@security.nl. Elke week geeft ict-jurist Arnoud Engelfriet in deze rubriek antwoord.

Juridische vraag: Ik las over de ontwikkeling van een “ChatGPT detector” bij wetenschappelijke papers. Weliswaar alleen voor scheikunde, maar ik vroeg me toch al af: als mijn paper op de universiteit door zo’n detector als plagiaat wordt aangemerkt, wat kan ik daar dan tegen doen? Dit is een behoorlijk black box verhaal.

Antwoord: De aangehaalde publicatie betreft een tool ontwikkeld door twee scheikundigen. Op basis van een relatief kleine dataset met abstracts kan de tool zeer accuraat een abstract als handgeschreven versus “komt uit ChatGPT” aanmerken. Het idee erachter is dat je zo’n detector domeinspecifiek moet bouwen, omdat je dan domeinspecifieke terminologie, taalgebruik, stijl en dergelijke mee kunt nemen in de afweging.

Voor plagiaatcontrole zou je dus per faculteit een aparte dataset moeten maken, dat lijkt me een te overzien probleem. Dus laten we even aannemen dat zo’n ding bestaat en ingezet wordt in de al bestaande procedure van plagiaatcontrole op papers en scripties. Wat dan?

Plagiaatscanners werken op dit moment vrij rechttoe-rechtaan: ze matchen stukken tekst met externe bronnen en produceren een rapport met highlights. Het plaatje ( van scanner Ephorus) laat daarvan een voorbeeld zien. Een examinator gebruikt dat als input om zelf de vergelijking te controleren en daar conclusies uit te trekken. Dat gaat dan bijvoorbeeld zo:

Tijdens de controle van het werk is door de plagiaatscanner een overlap geconstateerd tussen het werk van [appellant] en een medestudent. De overlap omvatte bijna 100 procent van het werk. … De examencommissie heeft ook geconcludeerd dat [appellant] zich schuldig heeft gemaakt aan plagiaat vanwege het letterlijk overnemen van informatie van websites. Omdat [appellant] geen gebruik heeft gemaakt van aanhalingstekens of een bepaalde vormgeving, zijn de citaten niet als zodanig herkenbaar. Verder heeft [appellant] bijna letterlijk informatie overgenomen zonder bronvermelding.

De “ChatGPT detector” werkt iets anders. Uit de Nature-publicatie:

Using machine learning, the detector examines 20 features of writing style, including variation in sentence lengths, and the frequency of certain words and punctuation marks, to determine whether an academic scientist or ChatGPT wrote a piece of text. The findings show that “you could use a small set of features to get a high level of accuracy”, Desaire says.

Hier komt dus de uitspraak uit “op basis van statistische analyse lijkt het er zeer sterk op dat deze tekst uit de tool ChatGPT komt”. Dat is wel even een ander niveau dan constateren dat stukken tekst uit het paper gelijk zijn aan stukken tekst uit een specifieke, na te lezen bron.

Juridisch gezien ligt de bewijslast bij de docent dan wel examencommissie dat sprake is van fraude (waar plagiaat of het inschakelen van hulplijnen onder valt). In dit Tilburgse voorbeeld uit 2021 werd door het College van Beroep een plagiaatbeschuldiging afgewezen omdat het aangedragen bewijs niet meer was dan “vraag 2d is opmerkelijk gedetailleerd beantwoord, in tegenstelling tot de rest”. Maar in de meeste gevallen is de plagiaat wel letterlijk en duidelijk (pdf).

Ik kon één geval vinden (uit Leiden - https://www.organisatiegids.universiteitleiden.nl/binaries/content/assets/ul2staff/organisatiegids/universitaire-commissies/cbe/uitspraken-cbe/fraude/uitspraak-2020-037.pdf) waarin de fraude zou zijn dat de student een derde had ingeschakeld om mee te schrijven. Dat lijkt nog het meest op het inzetten van ChatGPT: als docent zie je andere stijlvormen, een hoger niveau van redeneren, een heel andere wending dan in de eerder besproken onderzoeksopzet en concepten, zulke dingen.

Het kán natuurlijk dat je tussentijds ineens diepere inzichten verwerft (en discussie met anderen is legitiem om die te verwerven), maar als je dat niet kunt toelichten of laten zien als daarom gevraagd wordt dan kan men alsnog uitkomen bij fraude:

Het College overweegt dat niet het feit dat appellante een andere, ingewikkelde methode in haar scriptie heeft gebruikt kan worden aangemerkt als fraude, maar dat de verstrekte toelichtingen van appellante over de door haar gemaakte keuzes in haar scriptie van dien aard zijn dat verweerder terecht en op goede gronden heeft geconstateerd dat het op juiste wijze vormen van een oordeel over de kennis, het inzicht en de vaardigheden van appellante geheel of gedeeltelijk onmogelijk is geworden en dus als fraude moet worden aangemerkt.

Ik vond één uitspraak uit Groningen (pdf) over fraude (mede) vanwege de inzet van AI. De bewijslast werd volgens mij goed gedragen:

Appellante heeft in haar essay tenminste tien bronnen gebruikt die in het geheel niet bestaan. Daarnaast zijn er ook andere fouten gemaakt in de bronvermelding. Zo noemt appellante artikelen die niet in de door haar genoemde vakbladen zijn gepubliceerd en zijn er ook nog andersoortige fouten gemaakt.

Met dergelijke aanwijzingen onderbouw je je vermoeden van fraude prima, zeker als de studente daar weinig meer tegenover kan stellen dan dat het expliciete verbod op gebruik van AI pas van na haar afrondingsdatum was. Gebruik van tools om je werk te doen maakt dat het minder jouw werk is.

Van de zomer verscheen dit artikel waarin men een lichte toename signaleerde van fraudegevallen door GPT. Schokkend vond ik wel de daar gedane suggestie over detectie door ChatGPT zelf:

Bij vermoeden van plagiaat kan je aan het computerprogramma vragen of hij het geschreven heeft. ChatGPT geeft daar dan ‘eerlijk’ antwoord op. Die methode is niet altijd betrouwbaar, zegt Ferrantelli, dus uiteindelijk geeft het oordeel van de docent de doorslag.

Een methode die “niet altijd betrouwbaar is” lijkt me per definitie een methode die je niet moet gebruiken. Zeker als de makers van ChatGPT zelf hun eigen tool hiervoor offline halen omdat hij niet goed werkt.

(Meelezende afstudeerders-in-spe, wie hier een onderzoek van wil maken kan zich melden!)

Arnoud Engelfriet is Ict-jurist, gespecialiseerd in internetrecht waar hij zich al sinds 1993 mee bezighoudt. Hij werkt als partner bij juridisch adviesbureau ICTRecht. Zijn site Ius mentis is één van de meest uitgebreide sites van Nederland over internetrecht, techniek en intellectueel eigendom. Hij schreef twee boeken, De wet op internet en Security: Deskundig en praktisch juridisch advies.

Reacties (18)
15-11-2023, 12:49 door Anoniem
Intressant, maar wat als jou paper door zn apparaat gaat en jou intellectuele eigendom komt hiermee op straat te liggen......
15-11-2023, 14:32 door Anoniem
Door Anoniem: Intressant, maar wat als jou paper door zn apparaat gaat en jou intellectuele eigendom komt hiermee op straat te liggen......

Uh, research papers en studie werk schrijf je juist OM ZE OP STRAAT TE GOOIEN . (alleen in een bekend tijdschrift, met je naam erbij) .

Als het toch intern/geheim blijven is plagiaat helemaal niet zo'n ding.
15-11-2023, 15:18 door Anoniem
In zijn algemeenheid zal verweer bestaan uit een successieve serie van drafts , edits, wijzigingen die dan uiteindelijk de 'release' versie worden .

Zo gaat het altijd - als je zelf echt schrijft . Nauwkeurig zijn met bronnen een aanhalingen is hoe dan ook een vereiste, maar aannemelijk maken dat bepaalde delen niet door iets of iemand anders geschreven zijn kan volgen uit een logisch verloop van voorgaande versies

Analoog aan code , en daar met git makkelijk inzichtelijk te maken.
15-11-2023, 16:13 door Anoniem
Wetenschappelijk erg belangrijk om bronnen te vermeden. Want het meeste wat je weet heb je van iemand anders. Het was echter ook mijn reden om verschillende universiteiten te verlaten. Omdat daar erg veel mensen zaten die enkel elkaar belangrijk zaten te praten. Want verder krijgen ze toch eind van de maand wel betaald. Het was een vrij log circus allemaal. Waarbij bronvermeldingen ook een belangrijke rol spelen om dat allemaal in stand te houden. Ook als de bron zelf het ook maar weer van iemand anders had.

De wetenschap is natuurlijk bedacht om nieuwe dingen uit te vogelen en te bedenken. Maar niet iedereen in die wereld is daar geschikt voor.

AI is een mooi stukje gereedschap om op nieuwe uitvogeldingen te komen. Maar ook om misbruik van te maken door wetenschappers die helemaal de intentie niet hebben om wat nieuws uit te vogelen. Binnen die bandbreedte moet een beetje smokkelen wel blijven kunnen. Want het kan ook tot inspirerende nieuwe ideetjes leiden. Waar dan later natuurlijk wel de juiste bronnen onder geplakt moeten worden. Voor zover van belang voor nieuwe inzichten. Niet om op de krent te blijven zitten. Het is nieuwe wetenschap die onderbouwd en verdedigbaar moet zijn. Dààr zou het eigenlijk over moeten gaan.
15-11-2023, 17:39 door johanw
Bij veel vakgebieden is de schrijfstijl in wetenschappelijke artikelen zo gestandaardiseerd dat je van te voren weet dat je valse alarmen gaat krijgen bij zo'n soort testen.
16-11-2023, 00:03 door Anoniem
L.S.,

We weten welke twee hoofd-criteria aangehouden worden bij AI bot detectie.
Zie: https://contentatscale.ai/ai-content-detector/
en https://www.zerogpt.com/

Ik zou er meerdere naast elkaar gebruiken om tot een beter oordeel te kunnen komen.

Ik kan me ook voorstellen dat AI tevens deel gaat uitmaken van toegestane (ondersteunende) tools bij educatie.
Bijvoorbeeld bij linguïstiek geeft het veel tijdsvoordeel en precisering.

Maar als een computer, waarop examens en toetsen worden gemaakt,
direct naar de server van de Uni gaat en toegang tot Internet daar "a big no no" is,
dan is dat voorlopig nog niet het geval.

Commercieel zal er nog wel e.a.a. uit te zoeken zijn.

#webproxy
16-11-2023, 07:23 door Anoniem
Hoe verweer je je?
Dat lijkt em niet zo moeilijk.

1. Een papertrail van je onderzoek kunnen overleggen.
2. Inhoudelijk je paper kunnen verdedigen bij de professor of de examencommissie, en daarbij over voldoende diepgang beschikken dat duidelijk is dat je echt met de stof bezig geweest bent.
3. Peer review. Laat iemand anders jouw onderzoeks-resultaten zelfstandig ook bevestigen(of ontkrachten).
16-11-2023, 11:06 door Anoniem
Ik denk dat ook in dit geval, net als in de vele andere discussies die er hier zijn over allerlei automatische systemen voor detectie en opsporing, er vanuit gegaan mag worden dat er niet een 1:1 link is tussen het oordeel van zo'n tool en het uiteindelijke oordeel van een mens.
M.a.w. er komt geen scanner op de inbox van de universiteit die je paper reject als "komt uit ChatGPT" waarna het niet eens gelezen wordt. Nee, er wordt een vlaggetje "dit zou wel eens uit ChatGPT kunnen komen" aan je paper gehangen en dan gaat een mens beoordelen of dat ook inderdaad aannemelijk is.
Je hoeft je dus helemaal niet te verdedigen tegen zo'n tool, maar alleen tegen de uitspraak door een mens.
16-11-2023, 19:45 door Anoniem
Here is a bot-driven exposé on the intellect of an octopus
The octopus is one of the most intelligent animals on the planet. It has been found to be capable of complex problem-solving and memory retention. Its brain is large and complex.
with over 500 million neurons and 50 million cells in each arm. This high level of intelligence has enabled the octopus to adapt quickly to changing environments and learn new behaviours.

The octopus is able to recognise and remember individual faces and even remember how to open jars they have seen before. They are known for being able to create mazes, solve puzzles, and even recognise shapes and colours. Some have even been observed using tools, such as shells, to help them open food containers.

The octopus can also display self-awareness and even manipulate its environment to suit its needs. For example, octopuses have been observed constructing shelters out of coral, rocks, and shells. They have also been known to use their tentacles to distract predators, allowing them to escape.

The octopus is a master of disguise. It can change its colour and texture to blend into its surroundings, making it difficult for predators to spot. This is done by controlling the pigment cells in its skin, which can expand or contract to change colour.

The octopus also has an amazing memory. It can remember the location of objects and recall events even after a long time. This makes them capable of solving problems that require memory recall.

The octopus is a remarkable creature with a highly developed intellect. Its ability to solve complex problems, remember details, and manipulate its environment makes it one of the most intelligent animals on the planet.
Maar ik haalde er met Quilbot nog 15 schrijffouten uit.

AI is the digital octopus of our days.

Het gaat hard nu mensen met de vooruitgang, zo u wilt.
Geef de octopus een stem, zoals ook de Partij voor de Dieren dat voorstaat.

'Voedt' uw negatieve karma niet langer, trouwens inktvis is treife.

#webproxy
16-11-2023, 19:53 door Anoniem
Maar een mens kan hierbij onbevooroordeeld of juist wel bevooroordeeld zijn.
Een combinatie van ettelijke AI bot detectie tools kent dat nadeel niet.

Als ik een website scan voor security, dan kom ik niet met een oordeel als mens (onderzoeker) aanzetten,
maar met degelijke onderbouwde scan resultaten en dat dan zo divers mogelijk.
Met 3rd party & non-reconnaissance results.

luntrus
17-11-2023, 10:40 door Anoniem
Door Anoniem: Hoe verweer je je?
Dat lijkt em niet zo moeilijk.

1. Een papertrail van je onderzoek kunnen overleggen.
2. Inhoudelijk je paper kunnen verdedigen bij de professor of de examencommissie, en daarbij over voldoende diepgang beschikken dat duidelijk is dat je echt met de stof bezig geweest bent.
3. Peer review. Laat iemand anders jouw onderzoeks-resultaten zelfstandig ook bevestigen(of ontkrachten).

Mijn dochter (doet een andere studie dan scheikunde) vertelde dat ze nu, vanwege het feit dat geen enkele student stukken nog zelf schrijft, nu ook paginanummers moet vermelden in de bronvermeldingen van haar stukken.

De theorie is dus dat ChatGPT wel slim genoeg is om een correcte bronvermelding te genereren, maar niet slim genoek om daat ook de correcte paginanummers bij te vermelden.
17-11-2023, 12:44 door Anoniem
Door Anoniem:
Door Anoniem: Hoe verweer je je?
Dat lijkt em niet zo moeilijk.

1. Een papertrail van je onderzoek kunnen overleggen.
2. Inhoudelijk je paper kunnen verdedigen bij de professor of de examencommissie, en daarbij over voldoende diepgang beschikken dat duidelijk is dat je echt met de stof bezig geweest bent.
3. Peer review. Laat iemand anders jouw onderzoeks-resultaten zelfstandig ook bevestigen(of ontkrachten).

Mijn dochter (doet een andere studie dan scheikunde) vertelde dat ze nu, vanwege het feit dat geen enkele student stukken nog zelf schrijft, nu ook paginanummers moet vermelden in de bronvermeldingen van haar stukken.

De theorie is dus dat ChatGPT wel slim genoeg is om een correcte bronvermelding te genereren, maar niet slim genoek om daat ook de correcte paginanummers bij te vermelden.

Op de universiteit moest ik biij alle wekrstukken en scripties niet alleen vermelden welke bron (bv boek) ik gebruikt had, maar per citaal of alinea aangeven welke pagina's van boeken, stukken, artikelen, etc gebruikt waren.
Niets nieuws onder de zon.
En bij een gesprek werd daar op in gegaan. Inclusief de verdediging van de eigen interpretatie en mening.

Dit was 35 jaar geleden.
17-11-2023, 13:34 door Anoniem
Door Anoniem:
Als ik een website scan voor security, dan kom ik niet met een oordeel als mens (onderzoeker) aanzetten,
maar met degelijke onderbouwde scan resultaten en dat dan zo divers mogelijk.
Met 3rd party & non-reconnaissance results.
Heeft de klant dan niet het idee dat ie het net zo goed zelf had kunnen doen?
Ik zou bij een scan voor security juist blij zijn met een oordeel van een mens ipv wat standaard tooltjes...
17-11-2023, 13:43 door Anoniem
ChatGPT en andere LLM’s zijn zeer slecht in het detecteren van door ChatGPT en andere LLM’s geschreven stukken want anders zouden ze niet voldoen als ‘menselijke’ stukkenschrijver.

Ik denk dat TS banger moet zijn voor herkenning van stukken tekst die door anderen geschreven zijn (echt plagiaat dus), Het proces dat Arnoud aandraagt legt wel de vinger op de zere plek, bij gebrek aan informatie gaat een LLM ‘hallucineren’ en dat is precies wel wat een LLM kenmerkt.

Zorg altijd, maar dan ook altijd dat de bronnen echt bestaan.
17-11-2023, 15:07 door Anoniem
Begin dit jaar hebben Nature en Science in hun richtlijnen opgenomen dat ChatGPT door auteurs niet als coauteur mag worden vermeld. Nature stond vanaf het begin al wel toe dat onderzoekers ChatGPT als hulp bij het schrijven gebruikten, als dit maar werd aangegeven. Het tijdschrift Science had eerder elk gebruik van ChatGPT verboden, maar deze week heeft het ook in de richtlijnen opgenomen dat ChatGPT wel kan worden gebruikt, als maar wordt aangegeven waarvoor.

https://www.nrc.nl/nieuws/2023/11/16/ai-detector-voor-wetenschappelijke-artikelen-a4181017

De wetenschappelijke uitgevers zoeken ondertussen naarstig naar een slim algoritme dat de stijl van ChatGPT herkent.
17-11-2023, 16:33 door Anoniem
Begin met wat je zelf hebt gemaakt in je eigen stijl mix het met gpt en uiteindelijk zou je ChatGpt kunnen vragen:
herschrijf het stuk nu zo dat het niet meer herkend kan worden als een door gpt geschreven stuk.
voldoe hierbij ook aan de volgende voorwaarde... ... ...


Daarna zelf nog nakijken eventueel ordenen etc. (nog steeds veel werk maar het is dan ook slechts een hulpmiddel)
17-11-2023, 22:12 door Anoniem
Door Arnoud Engelfriet,: Hoe verweer je je tegen de uitspraken van de ChatGPT detector?

We vroegen het ook aan de CyberWijzer chatbot van CyberCrimeInfo.NL, en die kwam met de volgende suggesties:

Als je paper door een ChatGPT-detector als plagiaat wordt aangemerkt, zijn er verschillende stappen die je kunt nemen:

Ten eerste, het is belangrijk om te begrijpen dat de detector een hulpmiddel is en geen definitief oordeel velt. Het is aan de docent of examencommissie om te bepalen of er daadwerkelijk sprake is van plagiaat. Als je het niet eens bent met de bevindingen van de detector, kun je in beroep gaan tegen de beslissing. Dit proces varieert per universiteit, maar het kan nuttig zijn om bewijs te verzamelen dat aantoont dat je het werk zelf hebt gedaan. Dit kan bestaan uit vroege concepten van je paper, notities die je hebt gemaakt tijdens het onderzoeksproces, of correspondentie met je begeleider of andere studenten over je werk.
Het is ook belangrijk om te onthouden dat het gebruik van AI-tools zoals ChatGPT niet noodzakelijkerwijs als plagiaat wordt beschouwd, zolang je de bron correct citeert. Als je bijvoorbeeld ChatGPT hebt gebruikt om een deel van je paper te genereren, maar je hebt dit duidelijk aangegeven in je bronvermeldingen, dan zou dit niet als plagiaat moeten worden beschouwd. Ten slotte, als je je zorgen maakt over het gebruik van ChatGPT-detectors, kan het nuttig zijn om met je docent of begeleider te praten voordat je je paper indient. Zij kunnen je adviseren over de beste manier om met deze kwestie om te gaan en je helpen eventuele problemen te voorkomen.
22-11-2023, 11:50 door Anoniem
Reageren
Ondersteunde bbcodes
Bold: [b]bold text[/b]
Italic: [i]italic text[/i]
Underline: [u]underlined text[/u]
Quote: [quote]quoted text[/quote]
URL: [url]https://www.security.nl[/url]
Config: [config]config text[/config]
Code: [code]code text[/code]

Je bent niet en reageert "Anoniem". Dit betekent dat Security.NL geen accountgegevens (e-mailadres en alias) opslaat voor deze reactie. Je reactie wordt niet direct geplaatst maar eerst gemodereerd. Als je nog geen account hebt kun je hier direct een account aanmaken. Wanneer je Anoniem reageert moet je altijd een captchacode opgeven.