Før lanceringen af ChatGPT, havde et forskerhold sat sig for at træne kunstig intelligens på dansk. Men da de fleste avisartikler er underlagt copyright, havde de kun skatteregler og anden bureaukrati at gøre godt med. Tekstmateriale, der ikke ligefrem er repræsentativt for det danske sprog. Derfor måtte forskerne tænke kreativt: “Vi stod tilbage med Heste-Nettet,” siger professor i datalogi Leon Derczynski til Bloomberg. Hjemmesiden, der dog også fungerer som et sted, hvor man udveksler parforholdsråd og madlavningstips, handler primært om, ja, heste og udgør hele 22 pct. af datasættet – og dermed det primære grundlag for fremtidig kunstig intelligens på dansk: ‘Der er helt sikkert en hestebias.’”
+ Føljeton har også haft fat i Derczynski: “Når du er et hold, som arbejder på at bygge og udvikle modellen, har du ingen idé om, hvad de mange millioner af brugere kommer til at gøre med modellen. Du har ingen idé om, hvordan din model kommer til at opføre sig, hvilke typer outputs den kommer til at generere. Så i bund og grund laver de produkttestning på levende mennesker med få sikkerhedsforanstaltninger.”