AI og naturlig sprogbehandling

AI og naturlig sprogbehandling

chatbots

Hej alle sammen! I dette blog post vil jeg tage jer med på en spændende rejse ind i teknologien bag vores produkt og se nærmere på, hvad fremtiden har i vente for AI og naturlig sprogbehandling også kaldet (NLP). Sæt dig godt til rette og lad mig føre dig rundt i junglen omkring AI og naturlig sprogbehandling.

Hvad er Karla, og hvordan kan det hjælpe dig?

Karla er et værktøj, der bruger AI til at gøre det nemt for medarbejdere og slutbrugere at få adgang til virksomhedsinformation under AI og naturlig sprogbehandling. Vi bruger naturlig sprogbehandling (NLP) og maskinlæring, så brugeren kan søge med naturlig tekst, ligesom man ville stille spørgsmål til mennesker.

Maskinlæring har brug for træningsdata for at fungere – og jo mere data, jo bedre. At lave data, f.eks. ved at mærke historiske forespørgsler (som knytter dem sammen med de korrekte svar), er tidskrævende og derfor dyrt og vil forsinke, hvornår din AI-løsning er klar til at blive implementeret.

Så det kan lyde som om, at naturlig tekst søgning er uden for rækkevidde for virksomheder, der ikke har ressourcer til at lave tilstrækkelig træningsdata. Men det er faktisk ikke længere tilfældet.

For-træning: nøglen til succes med AI og naturlig sprogbehandling

AI og naturlig sprogbehandling har gjort store fremskridt i de seneste år på grund af det, vi kalder for-træning. Dette har været en ægte game-changer for at opnå gode resultater med en mindre investering. For at forklare for-træning skal vi være lidt mere specifikke om, hvad vi mener med træningsdata, når vi taler om NLP:

  • Umærket data: Det kan være tekstdata, vi indsamler fra virksomheden eller tekst, der er tilgængelig i virksomheder. Der er næsten ubegrænset umærket data til rådighed, men vi skal være omhyggelige med, hvad vi bruger, da vores model vil lære af det.
  • Mærket data: Dette er dyre data. Hos Karla består vores overvågede data af spørgsmål-svar-par. Vi skal derfor have adgang til et antal spørgsmål for hvert svar. Derudover opbygges vores interne AI-træning for at starte modellen på et rimeligt præstationsniveau. Vi arbejder nemlig kontinuerligt sammen med vores kunder om at kunne svare mere præcist og fyldestgørende. Dette kræves unik tilpasning per model vi bygger for kunderne da hver model bliver tilpasset unik ud fra unikke specifikationer. Du kan læse en kundecase her, som belyser hvordan vi skaber værdi for kingfish.
AI og naturlig sprogbehandling

Sådan træner du din AI og naturlig sprogbehandling

Når en sprogmodel er trænet, kan den “forstå” betydningen af sætninger. Eller mere præcist, hvis vi tager to sætninger med samme betydning, vil deres repræsentationer være ens.

Dette er et fremragende grundlag for at opbygge andre NLP-applikationer, såsom et spørgsmål-svar-system, fordi man nu har en måde at repræsentere spørgsmål på, der robust afspejler, hvordan man stiller dem.

Så AI og naturlig sprogbehandling applikationsopskriften à la 2020 er at:

  1. For-træn en sprogmodel med umærket data eller – endnu bedre – få nogen anden til at levere en for os.
  2. Finindstil på et lille mærket datasæt.

Men hvordan udnytter vi store umærkede datasæt for at få repræsentationer, der lærer betydningen af sætninger? Nøglen her er konteksten: et enkelt ord i en sætning får delvis sin betydning fra den omgivende tekst.

Så hvis vi træner en model til at forudsige et ord ud fra en kontekst som f.eks. foregående ord: “Josef går sin <udfyld>” eller fra omgivende ord: “katten <udfyld> musen”, så tvinges modellen til at lære en repræsentation, der er kontekstbevidst.

BERT og fremtiden for AI og naturlig sprogbehandling

Der er mange sprogmodeller på markedet. En tidlig berømt er word2vec. En fascinerende opdagelse ved dens repræsentationer er, at man kan lave omtrentlig aritmetik med dem, såsom: “konge” – “mand” + “kvinde” ≈ “dronning”.

I dag er den mest populære BERT, som er en forkortelse for Bidirectional Encoder Representations from Transformers. BERT er en maskeret sprogmodel, hvilket betyder, at modellens opgave er at forudsige et eller flere ord, der er blevet maskeret ud af inputtet, som vist i eksemplet nedenfor.

Som det ofte er tilfældet inden for dyb læring, hjælper mere data og større modeller med at forbedre ydeevnen. Den standard for-trænede BERT-model er en 300 millioner parameter-transformermodel trænet på hele Wikipedia og andre kilder.

Det lyder enormt, men det er faktisk muligt at sætte det i produktion og køre det uden mærkbar forsinkelse for brugeren. Du kan prøve det med Karla i dag.

Er du klar til at udnytte kraften i AI og naturlig sprogbehandling til at styrke dine kunder? Tøv ikke med at kontakte en af vores medarbejdere i dag for at finde ud af mere om vores produkter! Du kan evt. booke et uforpligtende demo-møde her [Book Demo].


Se med i videoen forneden om hvordan Karla AI-assistent virker

Test Karla af herunder, som kan svare på alt fra vores hjemmeside