ChatGPT GPT-4o-modellen genererer bilder med lesbare etiketter

OpenAI har introdusert en viktig oppdatering til GPT-4o som gjør det mulig å generere bilder med utrolig nøyaktig tekst. Denne nye funksjonen gjør det mulig for brukere å lage detaljerte bilder av høy kvalitet med talemeldinger og justere dem i prosessen for å gjengi den tiltenkte betydningen nøyaktig.
Dette er hva vi vet
Det ser ut til at vi nå kan glemme uleselige inskripsjoner eller bisarre symboler som ofte dukket opp i eldre AI-modeller.
I motsetning til tradisjonelle metoder for bildegenerering, der du må forbedre en enkelt spørring, bruker GPT-4o en dynamisk tilnærming. Først gir du en grunnleggende ledetråd, for eksempel "katt", og deretter kan du gå i dialog med modellen for å legge til ønskede detaljer, for eksempel en detektivhatt eller en monokkel.








OpenAI viste hvordan brukerne gradvis kan skape scener ved å kombinere elementer fra ulike bilder. Modellen viser stor nøyaktighet når det gjelder å gjengi tekst på skilt eller gjenstander, noe som er et betydelig fremskritt i forhold til tidligere modeller som ikke kunne gjengi skrevne ord korrekt.
GPT-4o gjør det også mulig å arbeide med bilder ved å gjøre endringer i dem. Modellen kan håndtere 10-20 objekter i en scene, der andre modeller ofte stopper ved 5-8.




Alt er imidlertid ikke perfekt: Det er noen ulemper, for eksempel beskjæring fra bunnen, misforståelser med ikke-latinsk tekst og problemer med mer enn 20 objekter. Likevel gir den nye funksjonen nøyaktighet og fleksibilitet som åpner for nye muligheter for designere og kreative.
Kilde: OpenAI, Gizmochina