Nyhedsanalyse

I dialog med dit leksikon

“Det danske kvalitetskontrollerede alternativ til Wikipedia” vil bygge en samtalerobot, der skal være et troværdigt modsvar til de lyvende sprogmodeller. Men man kan ikke spørge den om hvad som helst.

Niels Christian Vilmann/Ritzau Scanpix

Med 23 millioner statskroner i ryggen gik Gyldendal og Gad i 2018 sammen om at opdatere encyklopædien Den Store Danskes 150.000 onlineartikler. Encyklopædien, der frem til årtusindskiftet var et opslagsværk i 20 papirbind, lå altså allerede på internettet, men var i flere år ikke blevet “ajourført”. Denstoredanske.dk blev til Lex.dk med målet at skabe et fake news-frit alternativ til Wikipedia og have “langt flere artikler på dansk”. Skrevet, redigeret og faktatjekket af universitetsforskere og fagfolk.

På trods af få bump på vejen – efter først at være blevet forbigået på finansloven, lykkedes det i sidste ende at overtale Kulturministeriet til at sikre finansiering til driften frem til 2027 – er det ifølge Lex’ egne tal gået fremad. Sidste år havde siden over 20 millioner besøgende, og en tredjedel af befolkningen kender i dag til det digitale opslagsværk. Først var målet at ansætte 1.000 fagansvarlige, nu er målet det dobbelte.

“Lex blev skabt som et eksperiment for seks år siden. En tid, hvor vi måske endnu ikke var blevet klar over, hvor bekymrede vi skulle være over Big Techs indflydelse på vores demokrati,” indledte chefredaktør Erik Henz Kjeldsen sit oplæg på en nylig konference om, hvordan den viden, Lex skal levere, er truet af samtalerobotter som ChatGPT.

Alligevel – eller måske derfor – satser Lex på over de næste tre år at udvikle sin egen chatbot, hvor man skal kunne stille spørgsmål til indholdet. Tanken bag er den samme: At levere pålidelig information, der altid er kildehenførbar. Men hvordan gør man det uden at spille med på de præmisser, Lex er imod? Vi har ringet til Kjeldsen.

 

På Wikipedia har der været en flittig debat om, hvor tit man skal opdatere siden med eksempelvis Donald Trumps konstante udmeldinger. Som flere medier har beskrevet, står der på den ene side dem, der argumenterer for, at et leksikon ikke er en avis. På den anden side mener andre, at leksikonet bør tilpasse sig den digitale virkelighed. Hvor ser I jer selv i den skelnen?

“Da leksikonet var på papir, var man tvunget til at lave noget, der var langtidsholdbart. Brugen af leksikonet har forandret sig, også siden Gyldendal lancerede denstoredanske.dk i 2009. Ud over at vi har opslag om alt i hele verden, er vores særlige opgave at levere baggrund til at forstå aktuelle begivenheder. Når der er krig i Mellemøsten og Ukraine, og når vi taler om klimakrisen, går man til leksikonet.

På den måde har leksikonet fået en ny opgave, og det er tydeligt, at det bliver efterspurgt. Men det er ikke et sted, man går hen for at få levende opdateringer time for time, dag for dag. Vi opdaterer ikke løbende, hvor mange der er døde, eller hvor fronten er flyttet hen. Det findes i journalistikken, der gør det rigtig godt. Vi skal være en troværdig kilde til baggrundsviden, som vores forskere og fagfolk er afsendere på.

Hvor ofte man skal opdatere, er også et spørgsmål, som vores næsten 1.000 fagansvarlige sidder med. Nogle områder er mere dynamiske end andre. Det er ikke, fordi der ikke kommer nye erkendelser om tysk grammatik eller renæssancekunst, men det er mere robuste enheder. Andre er mere opdateringskrævende. Op til det amerikanske præsidentvalg var der næsten 600 artikler, der skulle oparbejdes for at have tilstrækkelig baggrund til alle de spørgsmål, man måtte have.”

I vil udvikle en chatbot, hvor man skal kunne stille spørgsmål til sit leksikon. Er det også samme definition af aktualitet, den skal arbejde med?

“Ja, det ændrer sig ikke. Vi holder ikke op med at være et leksikon. Forskningen bliver, som så mange andre områder, meget mere inddelt, mere specialiseret. Vi skal kunne dække flere områder, end vi kan i dag. Så vi kommer til at have mange flere forskere indover.

Vi har to perspektiver på den danske chatbot. Det ene er, at vi skal have en chatbot, der tager afsæt i dansk kultur og dansk sprog. Der er noget generisk sprogligt i ChatGPT, der er en smule skævt i forhold til den måde, vi bruger sproget på. Vi vil gerne bygge en teknologi, der gør det muligt for forskellige målgrupper at bruge. Nogle af teksterne kan være svære at tilgå. Nogle handler om noget meget specifikt, men ofte vil man gerne have sammenstillinger på tværs.

Men i sidste ende skal det være det samme troværdige indhold. Det vil sige, at alle de svar, man får, altid vil være kildehenførbare og med links til de underliggende artikler. Det er ikke helt så enkelt, som det lyder. Det er derfor, det er blevet et treårigt forskningsprojekt. Vi er helt overbeviste om, at den måde, man bruger leksikon på i dag, er en måde, man også vil bruge det mange år endnu, men at flere og flere vænner sig til andre måder at søge viden på. Det er det, vi forbereder os på.”

Med de begrænsninger, det sætter, hvad er det så for nogle lavpraktiske spørgsmål, I forestiller jer, at man kan stille?

“Hvis vi tager sagen om Alternative für Deutschland, der nu af indenrigsefterretningstjenesten er kategoriseret som en sikret højreekstrem organisation, kan man spørge, hvad det egentlig betyder.

I Danmark lever vi i en politisk virkelighed, hvor vi ikke har en indenrigsefterretningstjeneste, der løser den slags opgaver, og vi har heller ikke en forfatningsdomstol. Hvorfor er det sådan i Tyskland? Hvad kommer det af? Hvad er forklaringen? Hvad er dens funktion? Hvorfor blev den skabt?

Al den viden findes i leksikonet, men lige nu er den spredt ud i et hav af artikler. Der er noget om forfatningsdomstolen, forfatningen, noget om AfD, noget om AfD’s enkelte medlemmer. Hvis man vil blive klogere på, hvad det er, skal man faktisk rundt i virkelig mange artikler. Her er det visionen for den danske chatbot, at man i et naturligt sprog skal kunne spørge ind til baggrunden på den måde, som det nu ville falde en gymnasie- eller 9. klasses elev i fingrene.”

Det er måske ikke altid sikkert, at man som bruger ved, hvad leksikonet kan og ikke kan. Hvis nu man stiller et spørgsmål, der er for aktuelt, hvordan vil den danske chatbot så formulere et svar, der leder hen på den information, som i stedet kunne være relevant?

“Kendskabet til Lex blandt 16-19-årige er 60 pct. Kendskabet i befolkningen som helhed er cirka 30 pct. Men gymnasie- og folkeskoleeleverne kender Lex, fordi lærerne peger på det og kalder det troværdig, forskningsbaseret viden. Så eleverne har en klarere forestilling om, hvad Lex kan og ikke kan.

Løftet på ChatGPT er Spørg om hvad som helst. Det kan man selvfølgelig ikke på Lex. Det, som vi skal kunne, er også at kunne sige, når der er noget, vi faktisk ikke har et svar på. For der er jo ting, som vi ikke kan svare på. Der er det nødvendigt at tone rent flag. Det gør ChatGPT ikke.”

Nej, den lyver bare.

“ChatGPT finder på noget. Den er jo bare en sprogmodel, der med statistisk sandsynlighed peger på den næste naturlige formulering. Vores svar skal altid være forankret i indholdet, og indholdet skal altid være definerende for, hvad vi kan svare på. Det betyder igen også, at der er mere, vi skal kunne svare på. Ikke mere aktuelt, men mere baggrund.”

Hvordan forbereder I jer på at håndtere situationer, hvor jeres chatbot kunne tage fejl?

“Det er grunden til, at det er et forskningsprojekt. Vi kommer ikke til at bygge en stor sprogmodel fra bunden. Vi er afhængige af, at der findes store sprogmodeller i verden, vi kan benytte os af. Der er en mængde af sprogmodeller, der af forskellige grunde er udelukket. Vi kommer for eksempel ikke til at benytte os af GPT eller Gemini.”

Har I besluttet jer for hvilken?

“Det er vi stadig ved at finde ud af. Det er heller ikke sikkert, at den, vi starter med, er den, vi ender med. Grundlaget er, at det skal kunne udskiftes modulært. Vi er mange, der håber, at der også kommer en dansk, skandinavisk eller europæisk sprogmodel. Den store sprogmodel, LLM’en, er ikke en, vi selv kan bygge. Det er en milliardsag. Men vi skal bygge et system, der populært sagt bruger vores indhold sammen med sprogmodellen, og hvor vores indhold skal levere indholdet i svaret.

Sprogmodellen skal hjælpe os med den sproglige transformation. Hvordan forenkler man en sætning, så det er noget, som en 15-årig kan forstå? Det bliver den centrale og spændende udfordring at få til at fungere godt. Vi er de eneste, der er så optaget af at kunne give fuldstændigt korrekte svar på et virkelig bredt felt. Fordi vi er kendetegnet ved, at vi dækker alle områder i hele verden, gør det det meget udfordrende.

Vi rekrutterer et meget stort brugerpanel, som vi regner med skal involvere cirka 10.000 danskere, der skal være repræsentative for udskolingselever, for ungdomsskoleelever, for lærere og for befolkningen som helhed. Vi er et offentligt finansieret gode, så vores opgave er netop at stille kritisk infrastruktur til rådighed, i det her tilfælde vidensinfrastruktur.

Vi lancerer løbende en række betaversioner, som vores panel får adgang til. Allerede til sommer i år vil vi have de allerførste rå versioner, og så skal vi arbejde med det over de kommende år. Mit håb er, at vi i løbet af det første halvandet år kan lancere en åben betaversion og invitere meget bredere ind.” /Emma Louise Stenholm

Silicon Valley00:00Mexico City00:00New York00:00Sao Paulo00:00Nuuk00:00Bangui00:00Linköping00:00Kyjiv00:00Kabul00:00Mumbai00:00Hong Kong00:00Shanghai00:00Sydney00:00Fransk Polynesien00:00Silicon Valley00:00Mexico City00:00New York00:00Sao Paulo00:00Nuuk00:00Bangui00:00Linköping00:00Kyjiv00:00Kabul00:00Mumbai00:00Hong Kong00:00Shanghai00:00Sydney00:00Fransk Polynesien00:00Silicon Valley00:00Mexico City00:00New York00:00Sao Paulo00:00Nuuk00:00Bangui00:00Linköping00:00Kyjiv00:00Kabul00:00Mumbai00:00Hong Kong00:00Shanghai00:00Sydney00:00Fransk Polynesien00:00Silicon Valley00:00Mexico City00:00New York00:00Sao Paulo00:00Nuuk00:00Bangui00:00Linköping00:00Kyjiv00:00Kabul00:00Mumbai00:00Hong Kong00:00Shanghai00:00Sydney00:00Fransk Polynesien00:00

1

2

3

4

5

6

7

8

9

10

11

12