PRM / Sådan udnytter I mulighederne med privacy-preserving AI

    Pressemeddelelse fra Alexandra Instituttet

    Det kan være, at man som virksomhed gerne vil arbejde med maskinlæring, men man mangler træningsdata til at gøre det. Det kan også være virksomheder, der ejer data, som de godt vil bruge sammen med andre virksomheder, men de hverken kan eller må dele disse data.

    I ovenstående situationer findes der teknologier, der alligevel gør det muligt at udnytte data til AI. Det gælder metoder som fx differential privacy, homomorphic encryption, brug af syntetisk data, federated learning og secure multiparty computation.

    Begrebet hedder privacy-preserving AI og er med til at sikre, at man bevarer privacy i personfølsomme data.

    Hvad vil I beskytte?

    Det første man skal overveje er, hvad man vil beskytte. Når man ved det, skal man overveje, hvordan man vil gøre det, og derefter kan man se på, hvilke løsninger, der findes, lyder det fra Jonas Lindstrøm, Senior Security Architect i Alexandra Instituttet.

    Der findes forskellige slags privacy, herunder training data privacy og input-output data privacy. I training data privacy har man noget træningsdata, hvor der indgår persondata, som man vil beskytte.

    I forhold til input-output data privacy handler det ikke om individer, man vil beskytte, men om, at man vil beskytte hele datasættet. For at løse det skal man have fat i teknikker som multiparty computation, som gør det muligt at regne på krypterede data.

    Det kan også være, at man skal have fat i en teknik, der hedder federated learning, hvor man træner AI-modellen lokalt.

    Setuppet afgør, hvilke teknikker du skal bruge

    Privacy-preserving AI dækker over mange teknikker, der beskytter på forskellige måder. Desuden afgør valget af teknik, hvilket scenarie du arbejder i, forklarer Jonas Lindstrøm, der her kommer med et par korte eksempler på, hvor Alexandra Instituttet har været med til at bruge privacy-preserving AI.

    I forhold til input-output privacy kan det handle om, at man har to datakilder, som har forskelligt data om de samme individer. Her kan en virksomhed være interesseret i at træne en AI-model eller lave noget statistik på baggrund af de kombinerede datasæt. Men virksomheden hverken kan eller må kombinere data i det åbne af hensyn til forretning eller privacy.

    “Det arbejder vi med projektet HEDAX, der er støttet af Innovationsfonden. I en af casene er datakilderne Danmarks Statistik og Sundhedsdatastyrelsen, og her prøver man at lave analyser på baggrund af sundhedsdata og socioøkonomisk data, uden at datakilderne nogensinde ser hinandens data. Det er en måde, du kan gribe det an på,” forklarer han.

    AI-modellerne bliver trænet lokalt

    En anden teknik er federated learning, som kort handler om træning af en model på flere datasæt. Her trænes flere “små” modeller på lokale datasæt. De “små” modeller samles så efterfølgende til den endelige model i stedet for at samle data hos én part.

    Det er en metode, som vi har prøvet af i EU-forskningsprojektet SODA. Her har vi forsket i, hvordan man kan anvende følsomme data fra flere dataarkiver, uden at man går på kompromis med sikkerheden.

    Federated learning bliver også brugt – og er gjort populært – af Google i en løsning, der hedder J-board. Teknikken bliver brugt, når du skriver noget på en Android-telefon. Her er det AI, der på baggrund af, hvad du har skrevet, prøver at forudsige, hvad du vil skrive som det næste.

    Det kræver en masse data. En måde at gøre det på er at samle alle sms’er, som Android-brugere har skrevet gennem mange år. Det er selv for Google en stor mundfuld, og det går ud over brugernes privacy. Derfor har Google trænet en AI-model lokalt på brugernes telefoner og derefter kombineret data centralt, så data om hvad man skriver ikke forlader telefonerne. Det er AI, der korrigerer i forhold til brugernes data, og dermed får man en bedre model.

    “I vores projekt kombinerede vi nogle af teknologierne, herunder federated learning og multiparty computation, og det er nok sådan, man ofte vil gøre. Med vores eksempel fandt vi ud af, at over tid kommer man til noget, der er meget tæt på det, man ellers ville opnå, hvis man havde træningsdata samlet, men det tager en smule længere tid,” forklarer han.

    Se hele oplægget her https://tv.di.dk/live/63923503/f1c9d7ccbd01e146ff78/room

    Læs hele pressemeddelelsen på Via Ritzau her: https://via.ritzau.dk/pressemeddelelse/sadan-udnytter-i-mulighederne-med-privacy-preserving-ai?releaseId=13603278

    ** Ovenstående pressemeddelelse er videreformidlet af Ritzau på vegne af tredjepart. Ritzau er derfor ikke ansvarlig for indholdet **