Door EenVraag: Want hoe kun je een algoritme als oorzaak zien van racisme? Dit geldt zelfs als etnische afkomst niet mee wordt genomen in zo'n algoritme.
Want alsnog komen er dezelfde etnische groepen uit als resultaat.
Er is een verschuiving gaande van wat eigenlijk bedoeld wordt met de term "racisme". Het gaat tegenwoordig lang niet altijd meer over de
intentie die erachter zit maar veel meer over het
effect van allerlei dingen die vaak onbewust in de samenleving zijn verankerd.
Heel verhelderend zijn proeven die gedaan zijn met peuters met verschillende huidskleuren, die poppen aangeboden kregen om mee te spelen die ook verschillende huidskleuren hadden. Zelfs kinderen met een donkere huid bleken gemiddeld een voorkeur te hebben voor poppen met een lichte kleur. Dat suggereert dat alle boodschappen die die jonge kinderen in de media en de buitenwereld zien al een voorkeur voor een andere huidskleur dan hun eigen opleveren. Die kinderen kan je moeilijk van tegen zichzelf gekeerd racisme beschuldigen, er zitten helemaal geen bewuste bedoelingen achter. Maar toch sluipen dit soort dingen erin.
Dat soort associaties kunnen bij volwassen ertoe leiden dat bijvoorbeeld iemand met een donkere huid die goed gekleed in een dure auto zit opmerkelijk vaak wordt staande gehouden door de politie. Dat hoeft helemaal geen bewust racisme te zijn, daar hoeven helemaal geen nare bedoelingen achter te zitten, er kan net als bij die peuters iets gebeuren dat onbedoeld en onbewust toch de vervelende consequentie hebben dat iemand overmatig vaak staande wordt gehouden die niets anders misdaan heeft dan een goede baan te hebben.
In dat soort situaties heb je racisme als praktisch
effect zonder dat er racistische
intenties achter zitten. Want reken maar dat iemand die keer op keer opnieuw verantwoording moet afleggen zonder iets misdaan te hebben dat op een gegeven moment grondig de strot uitkomt.
Is de output van een algoritme daarmee de spiegel van de maatschappij of een oordeel?
Een spiegel van de maatschappij, voor een heel belangrijk deel, maar meer op de manier die ik net uitlegde dan de manier die jij bedoelde.
Het lastige van historische data is dat de pakkans van mensen die dingen verkeerd doen niet alleen afhangt van welk percentage van een bevolkingsgroep foute dingen doet maar ook van hoeveel aandacht de politie en andere handhavers op die bevolkingsgroep richten. Stel dat de criminaliteit onder bijvoorbeeld Surinamers feitelijk
niet hoger is dan bij de gemiddelde kaaskop, maar die groep wel veel vaker gecontroleerd wordt. Dan is de pakkans onder die groep veel hoger, domweg door de intensere controles, en dan worden er ook werkelijk meer mensen gepakt. Dat kan stuk voor stuk volkomen terecht zijn omdat degenen die gepakt worden ook werkelijk wat hebben misdaan, maar het effect is wel dat ook de mensen die niets verkeerd doen uit die groep veel vaker met vervelende controles te maken krijgen, én daarnaast duikt die groep door die grotere aandacht ook nog eens op in de statistieken als een groep waar veel mee aan de hand is, want met een grotere pakkans worden er meer gepakt.
Als je dan vervolgens je AI-systeem voedt met die nieuwe statistieken "ziet" dat systeem daarin alleen maar aanleiding om die groep vaker te blijven controleren, wat weer de pakkans hoog houdt, en zo houdt het zichzelf in stand.
Het is in mijn ogen niet zo zinvol om het zelflerende algoritme als oorzaak van dit soort racistische effecten te bestempelen. Het probleem is veel meer dat de de beschikbare gegevens waarmee het leerproces wordt gevoed al een bias ingebouwd kunnen hebben, die dan netjes door het systeem gereproduceerd wordt. Het is maar zeer de vraag of het goed mogelijk is om dat te onderscheiden en eruit te filteren als mensen het bij zichzelf al niet kunnen onderscheiden. Het is in ieder geval duidelijk dat dat in de praktijk echt niet altijd goed gebeurt. Wat ook een probleem is is dat wat een computer uitspuugt vaak opmerkelijk veel invloed heeft omdat mensen het behandelen alsof het exact en betrouwbaar is. Juist dit soort algoritmes zijn verre van exact in hun resultaten, omdat de uitkomsten niet door het feitelijke generieke algoritme worden bepaald maar door de data waarmee het getraind is.