ChatGPT GPT-4o-modellen genererer bilder med lesbare etiketter

Av: Nastya Bobkova | Oppdatert 28.03.2025, 06:29

Fra tekst til kunst: GPT-4o introduserer en banebrytende tilnærming til bilder

Med GPT-4o kan du lage komplekse bilder med tekst på objekter. Kilde: OpenAI

OpenAI har introdusert en viktig oppdatering til GPT-4o som gjør det mulig å generere bilder med utrolig nøyaktig tekst. Denne nye funksjonen gjør det mulig for brukere å lage detaljerte bilder av høy kvalitet med talemeldinger og justere dem i prosessen for å gjengi den tiltenkte betydningen nøyaktig.

Dette er hva vi vet

Det ser ut til at vi nå kan glemme uleselige inskripsjoner eller bisarre symboler som ofte dukket opp i eldre AI-modeller.

I motsetning til tradisjonelle metoder for bildegenerering, der du må forbedre en enkelt spørring, bruker GPT-4o en dynamisk tilnærming. Først gir du en grunnleggende ledetråd, for eksempel "katt", og deretter kan du gå i dialog med modellen for å legge til ønskede detaljer, for eksempel en detektivhatt eller en monokkel.

OpenAI viste hvordan brukerne gradvis kan skape scener ved å kombinere elementer fra ulike bilder. Modellen viser stor nøyaktighet når det gjelder å gjengi tekst på skilt eller gjenstander, noe som er et betydelig fremskritt i forhold til tidligere modeller som ikke kunne gjengi skrevne ord korrekt.

GPT-4o gjør det også mulig å arbeide med bilder ved å gjøre endringer i dem. Modellen kan håndtere 10-20 objekter i en scene, der andre modeller ofte stopper ved 5-8.

Alt er imidlertid ikke perfekt: Det er noen ulemper, for eksempel beskjæring fra bunnen, misforståelser med ikke-latinsk tekst og problemer med mer enn 20 objekter. Likevel gir den nye funksjonen nøyaktighet og fleksibilitet som åpner for nye muligheter for designere og kreative.

Kilde: OpenAI, Gizmochina

Kunstig intelligens