Pressemeddelelse fra Alexandra Instituttet
Artikel af Anders Jess Pedersen, AI specialist ved Alexandra Instituttet
Forleden formåede min fætters børn – som endnu ikke kan stave – at downloade Minecraft til deres fars telefon, udelukkende gennem behagelig samtale med Siri. For dem er den stemmestyrede digitale assistent lige så naturlig at bruge, som en google-søgning er blevet for os andre.
Det er blot et ud af mange tegn på, hvor vi er på vej hen. Udviklingen inden for sprogteknologi (Natural Language Processing) går stærkt, og i fremtiden vil vores kommunikation med computere og behandlingen af vores sprogdata ændre, måden vi interagerer på.
Jeg vil som udgangspunkt ikke sætte et skræmmebillede op, for der er så mange gode ting at hente i den udvikling. For at tage ét eksempel, så kan vi se på den danske virksomhed Corti, der har udviklet et program, der kan hjælpe under samtaler med sundhedsvæsnet. Når computeren er opdateret på al den nyeste viden og forskning, som ét menneske umuligt kan have et overblik over, og den samtidig kan holde det op imod med en betydelig samling af patienthistorik , så kan fejldiagnosticeringer sænkes markant.
Problemet er bare, at alt det primært foregår på engelsk. Tech-udviklingen er nogle gange drevet mere af penge end af etik, og derfor er det ikke så mærkeligt, at det er der, vi er. Engelsksprogede værktøjer rammer unægtelig en større målgruppe end værktøjer på dansk, og amerikanske tech-giganter har, skåret over en kam, en mere afslappet tilgang til etik end den gængse danske virksomhed. Det er eksempelvis blevet afsløret, at Apple har lyttet med og transskriberet samtaler, som folk har haft i nærheden af deres mobil, også mens Siri var slået fra. Det har givet Apple værdifulde data til udviklingen af deres sprogmodeller, men for hvilken pris i forhold til vores privatliv?
Så vi har altså en udfordring. Når en service bliver tilpas værdifuld, som når vores sundhedssystem kan garantere en væsentligt forbedret model til diagnosticering, så bliver det uhyre vanskeligt at vælge det fra. Men hvis systemet kun fungerer på engelsk, skal din bedstemor så til at tale engelsk, når hun ringer til sin læge?
Jeg er, sammen med mine kolleger, ved at løse udfordringen, men det er i sandhed en udfordring, når man vil gå ansvarligt til værks. Skal modeller, som den nævnt ovenfor, virke på dansk, så skal den ikke bare virke på rigsdansk, den skal også virke på sønderjysk og på bornholmsk og på københavnsk og på fynsk og på den lokale dialekt på Mandø, hvor der bor lige på den gode side af 30 mennesker. Alt i alt har vi 33 dialekter i Danmark, hvilket ikke umiddelbart synes af meget sammenlignet med eksempelvis Indien, hvor de har langt over 100 forskellige sprog. Men relativt set er der langt flere mennesker, der taler de respektive 100 sprog end der er mennesker der taler de 33 forskellige sprog i Danmark, og derfor har de et større datagrundlag at indsamle på i Indien.
Derudover er det ikke kun dialekter, vi skal være sikre på, er repræsenterede. Børn og voksne, kvinder og mænd, sorte og hvide – vi skal være sikre på, at alle er repræsenteret i dataene, hvis vi vil udvikle modeller på ansvarlig vis. Vi er i gang med at indsamle data, men det kommer til at kræve nogle runder, hvor vi kvalitetssikrer vores modeller ved at blive ved med at teste den på forskellige befolkningsgrupper, indtil den virker for alle.
Det er et langsommeligt men vigtigt arbejde, hvis vi stadig skal være et digitalt foregangsland i fremtiden, og hvis vi stadig skal tale dansk. Det håber vi, at flere i Danmark får øjnene op for, både på Christiansborg, i det offentlige og i landets mange virksomheder, som også kan drage nytte af teknologierne. Jeg hører gerne fra jer, der er interesserede i udviklingen og måske ønsker at få indflydelse på, hvordan vi udvikler NLP på dansk.
Kontakt:
Communications Specialist Lisa Lorentzen tlf.: +45 93 52 17 64 email: lisa.lorentzen@alexandra.dk
Læs hele pressemeddelelsen på Via Ritzau her: https://via.ritzau.dk/pressemeddelelse/er-vi-klar-til-konsekvenserne-hvis-det-danske-sprog-lider-en-digital-dod?releaseId=13644085
** Ovenstående pressemeddelelse er videreformidlet af Ritzau på vegne af tredjepart. Ritzau er derfor ikke ansvarlig for indholdet **