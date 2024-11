Een onderzoeker heeft één miljoen posts van socialmediaplatform Bluesky gescrapet en via internet aangeboden, om de dataset na kritiek weer te verwijderen. Bluesky kijkt naar een robot.txt-achtige aanpak waarmee gebruikers kunnen aangeven of hun posts voor 'AI-training' gebruikt mogen worden, maar het platform benadrukt dat het uiteindelijk aan externe partijen is om een dergelijke 'afspraak' te respecteren, wat inhoudt dat alle publieke posts voor dergelijke doeleinden zijn te gebruiken.

Daniel van Strien, een medewerker van Hugging Face, een bedrijf dat tools maakt waarmee het mogelijk is om machine learning binnen applicaties te gebruiken of die daarmee te ontwikkelen, verzamelde via een publieke API (application programming interface) één miljoen Bluesky-posts. Het ging om de inhoud van berichten, metadata en informatie over mediabijlagen en 'reply relationships'. Volgens Van Strien zou de dataset voor allerlei doeleinden zijn te gebruiken, waaronder het analyseren van 'social media posting patterns'.

De dataset werd vervolgens op internet aangeboden, maar Van Strien besloot die na kritiek 'voor nu' weer te verwijderen. Bluesky kwam daarna met het bericht dat het geen 'generatieve AI' met gebruikersdata traint. Voor externe partijen is dit echter anders. "Bluesky is een open en publiek sociaal netwerk, net zoals websites op het internet. Websites kunnen met een robots.txt-bestand aangeven of ze toestaan dat externe bedrijven hun data crawlen, en we kijken hier naar een soortgelijke oplossing." Het platform voegt toe dat het uiteindelijk aan externe partijen is om een dergelijke oplossing te respecteren, aangezien Bluesky naar eigen zeggen dit zelf niet kan afdwingen.