Et av de viktigste mulighetene man har i Compliance er å identifisere kritisk og sensitiv informasjon og hvor det er lagret. Her i Norge er norsk personnummer et veldig naturlig eksempel på en slik type informasjon, så i denne artikkelen skal vi bruke norsk personnummer som et eksempel på hvordan man enkelt kan få en mer pålitelig oversikt over hvor sensitiv informasjon blir lagret.
Sensitiv informasjons typer
I Compliance har man noe som kalles Sensitiv informasjons type. Dette er enkelt forklart verktøyet man bruker for å identifisere hva slags typer informasjon man har i f.eks. i en e-post eller en fil på SharePoint eller en Teams melding. Dette brukes ofte sammen med informasjonsetiketter, eller labels som vi har skrevet om i denne posten her: Get Copilot ready(-ish) – with labels – Agder in the cloud.
Det følger med en rekke ferdig definerte info typer i Compliance portalen, og man kan i tillegg lage sine egne for å hjelpe til med å identifisere den dataen man har liggende. En av de som følger med, er en som heter Norway Identity number. Denne skal gi utslag på norske personnummer, men denne har erfaringsmessig gitt veldig mange falske treff.
Så hvordan fikser vi det?
Et mer korrekt resultat med RegEx
Ved hjelp av Regulære Uttrykk (RegEx) så kan man lage et mye bedre søkefilter for å få riktige treff på hvor det ligger lagret et personnummer i M365. Hensikten er som sagt å få ned antall treff som er falskt positive. Dette har vi så klart lagd en oppskrift på:
1: Opprett egne sensitive informasjons typer
Logg inn på compliance.microsoft.com – velg Dataklassifisering, Klassifiserere, Typer sensitiv informasjon og så Opprette sensitiv informasjons type.
Gi den et beskrivende navn og beskrivelse og klikk Neste.
Vi har testet med to typer RegEx, hvor den ene detekterer 11 sammenhengende siffer eller 6 + 5 siffer med et mellomrom imellom, og den andre sjekker at de 2 første tallene er mellom 01-31 og de 2 neste er mellom 01-12.
I det første eksemplet så legger vi inn en regel som detekterer 11 sammenhengende siffer eller 6 + 5 siffer med et mellomrom imellom.
Eksempel 1: 11 siffer eller 6 + 5
Velg Opprett et mønster.
På den nye skjermen som dukker opp på høyre side, velg Middels konfidens og legg til primærelementet Vanlig uttrykk.
Under Vanlig uttrykk så gir du uttrykket et beskrivende navn og limer inn følgende RegEx-uttrykk. Pass på at strengsamsvar er valgt:
\d{11}|\d{6} \d{5}
Velg så Fullført og så Opprett. Velg Neste for å gå videre i veiviseren. Legg merke til at konfidensnivået samsvarer med et du valgte da du opprettet mønsteret.
Velg så Neste og Opprett.
Eksempel 2: 11 siffer eller 6+5 OG filter for gyldige datoer
I dette eksemplet kan du gjenta den samme prosessen med et RegEx-utrrykk som verifiserer at de 2 første sifrene er mellom 01-31 og de 2 neste er mellom 01-12. Dette er for å filtrere bort alle potensielle personnumre som ikke samsvarer med en reell dato.
Det er bare å gjenta prosessen fra eksempel 1, men legg til dette RegEx-uttrykket i stedet:
(0[1-9]|[12][0-9]|3[01])(0[1-9]|1[0-2])(\d{2} \d{5}|\d{7})
Test dine RegEx
Før du fortsetter så kan du enkelt teste om den filtrerer tall slik du ønsker å oppnå, ved å gå på den infotypen du ønsker og teste, og velg “Test”
Lag f.eks. 2 tekstfiler, en med gyldige datoer og en med ugyldige datoer. Merk at RegEx-uttrykket ikke tar hensyn til maks dager i hver måned, så “3102” for 31. februar vil komme som en gyldig dato. Klikk “Last opp fil” og så “Test” i bunnen, så kan du teste om den finner personnummer i filene du tester med.
Hvis filen har informasjon om matcher uttrykket så vil det vises på skjermen, og systemet vil dermed si i dette tilfellet at denne filen inneholder personnummer.
2: Tildele rettigheter for å se resultatet
Når sensitiv infotype er lagt til, så vil den stå og matche eksiterende data i tenanten mot denne infotypen. Men man har som standard ikke rettigheter til å se resultatet, på grunn av personvern er dette ikke synlig for en vanlig admin bruker. Uten ekstra tillatelser så kan du se følgende som i eksemplet under.
Det er to roller som kan tildeles for å kunne se mer detaljert informasjon: Content Explorer List Viewer og Content Explorer Content Viewer.
- Content Explorer List Viewer lar deg se hvilke mailbokser, Teams, OneDrives eller SharePoint områder som treffene kommer fra. Så i sammenheng med bildet over, så vil denne rollen la deg se konkret hvilke OneDrives de 22 treffene ligger i, og dermed også navnet på brukeren
- Content Explorer Content Viewer går enda en nivå dypere og lar deg åpne den spesifikke e-posten eller filen som inneholder dataen som matcher på infotypen, selv om du vanligvis ikke har tilgang.
Med tanke på personvern så anbefaler jeg sterkt å rådføre med en personvern ansvarlig og/eller en jurist før man tildeler disse rettighetene.
Disse rollene ligger under Roller og omfang, Tillatelser og så Roller under Microsoft Purview løsninger
Det kan ta noen timer fra du får tildelt en rolle før den trer i kraft, og det kan lønne seg å logge seg ut av kontoen og på igjen.
3: Se resultatet i Innholdsutforsker
Når man har de rette rollene, så kan man igjen gå på Dataklassifisering og Innholdsutforsker, søke opp sin Sensitiv info type, i eksemplene under har vi hentet den innebygde Norway Identity number, og de to vi opprettet selv i steg 1
- Øverst: Innebygd funksjon som er inkludert i tenanten
- Midten: RegEx som sjekker 11 siffer eller 6 siffer og 5 siffer med et mellomrom imellom.
- Nederst: RegEx som sjekker 11 siffer eller 6 siffer og 5 siffer med et mellomrom imellom og i tillegg krever at de to første sifferene er mellom 01-31 og de 2 neste sifferene er mellom 01-12.
Antall treff opprinnelig | Treff med 11 eller 6+5 siffer | Reduksjon falske treff | Treff med 11 eller 6+5 siffer OG dato filter | Reduksjon falske treff |
122218 | 4209 | 66 % | 63 | 99 % |
25885 | 3507 | 86 % | 30 | 99 % |
Og akkurat i disse eksemplene ser vi hvorfor det er viktig å legge inn sensitive info typer som finner akkurat det vi skal passe ekstra godt på!
Discover more from Agder in the cloud
Subscribe to get the latest posts sent to your email.