Hej og velkommen til dette spændende blog post om ChatGPT 4o! OPenAI skriver, at de annoncerer GPT-4o, deres nye flagskibsmodel, der kan ræsonnere på tværs af lyd, visuelt indhold og tekst i realtid. Spændende ikke sandt? Sæt dig godt til rette og lad mig gøre dig klogere på hvad den nye version har af forbedringer, der gør dig til et geni på arbejdet eller i skoleklassen!
ChatGPT 4o Model kapabiliteter
Før GPT-4o kunne du bruge Voice Mode til at tale med ChatGPT med latenstider på gennemsnitligt 2,8 sekunder (GPT-3.5) og 5,4 sekunder (GPT-4). For at opnå dette er Voice Mode en pipeline med tre separate modeller: en simpel model transskriberer lyd til tekst, GPT-3.5 eller GPT-4 tager tekst ind og udsender tekst, og en tredje simpel model konverterer teksten tilbage til lyd. Denne proces betyder, at hovedkilden til intelligens, GPT-4, mister mange oplysninger. Den kan ikke direkte observere tone, flere talere eller baggrundsstøj. Den kan heller ikke udtrykke latter, sang eller udtrykke følelser.
Med GPT-4o har OpenAI trænet en enkelt ny model fra ende til anden på tværs af tekst, vision og lyd. Det betyder, at alle input og output behandles af det samme neurale netværk. Fordi GPT-4o er deres første model, der kombinerer alle disse modaliteter, skraber de kun overfladen af, hvad modellen kan gøre og dens begrænsninger! Lad os nu tage et kig på GPT-4o sikkerhed og begrænsninger.
ChatGPT 4o model sikkerhed og begrænsninger
GPT-4o har sikkerhed indbygget på tværs af modaliteter ved design. Dette opnås gennem teknikker som at filtrere træningsdata og forfine modellens adfærd efter træning. De har også oprettet nye sikkerhedssystemer for at give værn på stemme output. OpenAI har evalueret GPT-4o i henhold til deres Forberedelsesramme og i overensstemmelse med vores frivillige forpligtelser. Deres evalueringer af cybersikkerhed, CBRN, overtalelse og model autonomi viser, at GPT-4o ikke scorer over Medium risiko i nogen af disse kategorier.
Denne vurdering involverede automatiserede og menneskelige evalueringer gennem hele modeltræningsprocessen. OpenAI testede før-sikkerhedsforanstaltninger og efter-sikkerhedsforanstaltninger versioner af modellen. De brugte brugerdefineret fintuning og prompts for bedre at afsløre modelkapaciteter. GPT-4o har også gennemgået omfattende eksternt rødt team med over 70 eksterne eksperter. De kommer fra områder som socialpsykologi, bias og retfærdighed og misinformation. Formålet var at identificere risici, der introduceres eller forstærkes af de nyligt tilføjede modaliteter.
OpenAI brugte disse læring for at bygge deres sikkerhedsinterventioner. Det skal forbedre sikkerheden ved interaktion med GPT-4o. De vil fortsætte med at afbøde nye risici, når de opdages. De anerkender, at GPT-4o’s lydmodaliteter præsenterer en række nye risici. I dag frigiver de offentligt tekst- og billedinput og tekstoutput. I de kommende uger og måneder vil de arbejde på den tekniske infrastruktur, anvendelighed via efteruddannelse og sikkerhed, der er nødvendig for at frigive de andre modaliteter.
For eksempel vil lydoutput ved lanceringen være begrænset til et udvalg af forudindstillede stemmer. De vil overholde deres eksisterende sikkerhedspolitikker. De vil dele yderligere detaljer, der adresserer det fulde omfang af GPT-4o’s modaliteter i det kommende systemkort. Gennem vores test og iteration med modellen har vi observeret flere begrænsninger, der findes på tværs af alle modellens modaliteter, hvoraf nogle er illustreret nedenfor.
ChatGPT 4o model tilgængelighed
GPT-4o er deres seneste skridt i at skubbe grænserne for dyb læring mod praktisk anvendelighed. De har brugt meget indsats de sidste to år på at arbejde på effektivitetsforbedringer på hvert lag af stacken. Som et første resultat kan de gøre en GPT-4 niveau model tilgængelig meget bredere. GPT-4o’s kapaciteter vil blive rullet ud iterativt, med udvidet rød team adgang fra Maj. GPT-4o’s tekst- og billedkapaciteter begynder at rulle ud i Maj i ChatGPT.
De gør GPT-4o tilgængelig i den gratis tier og for Plus-brugere med op til 5x højere beskedgrænser. De vil rulle en ny version af Voice Mode med GPT-4o i alpha ud i ChatGPT Plus i de kommende uger. Udviklere kan også nu få adgang til GPT-4o i API’en som en tekst- og visionsmodel. GPT-4o er 2x hurtigere, halvdelen af prisen og har 5x højere grænser sammenlignet med GPT-4 Turbo. De planlægger at lancere support for GPT-4o’s nye lyd- og videofunktioner til en lille gruppe betroede partnere i API’en i de kommende uger.
Hvad skal du tage med herfra om GPT-4o?
GPT-4o markerer en stor fremgang i AI-teknologi ved at kombinere tekst, lyd og visuelt indhold i én model. Denne integration forbedrer brugeroplevelsen med mere effektiv og intuitiv interaktion. Med indbyggede sikkerhedsfunktioner og omfattende tests opretholder GPT-4o høj sikkerhed og pålidelighed.
Den gradvise udrulning af nye funktioner gør GPT-4o til en tilgængelig ressource for flere brugere, hvilket forbedrer både hastighed og omkostningseffektivitet. GPT-4o er godt positioneret til at blive en essentiel del af fremtidens arbejdsplads og uddannelsessystemer. Så hvis du ikke har prøvet ChatGPT endnu, hvad venter du så på?