Alibabas Qwen2.5-VL AI-modell kan kjøre Booking.com på Android og bestille billetter fra Chongqing til Beijing (video)
Alibabas Qwen-team har kunngjort utgivelsen av en ny serie AI-modeller Qwen2.5-VL som er i stand til å utføre en rekke tekst- og bildeanalyseoppgaver.
Her er hva vi vet
Modellene kan behandle filer, forstå videoer, telle objekter i bilder og kontrollere PC-er, noe som ligner på modellen som fungerer i OpenAI Operator.
Ifølge testdata utkonkurrerer Qwen2.5-VL OpenAIs GPT-4, Anthropics Claude 3.5 og Googles Gemini 2.0 Flash når det gjelder videoforståelse, matematikk, dokumentanalyse og besvarelse av spørsmål. Modellen er i stand til å analysere grafer og diagrammer, trekke ut data fra skanninger av fakturaer og skjemaer, og "forstå" videoer som varer i flere timer.
Testresultater fra Qwen2.5-VL. Illustrasjon: Alibaba
En interessant egenskap ved Qwen2.5-VL er muligheten til å samhandle med programvare på PC-er og mobile enheter. En video som er lagt ut på X, viser en Qwen2.5-VL-modell som starter Booking.com-appen på Android og bestiller en flybillett fra Chongqing til Beijing. I en test på en Linux-dator viste modellen seg imidlertid å være mindre effektiv, og begrenset seg til å bytte fane.
Qwen2.5-VL-modellene har også visse begrensninger på temaene de diskuterer, særlig i Qwen Chat, på grunn av kinesiske internettmyndigheters krav om å følge "sosialistiske kjerneverdier".
Qwen2.5-VL-modeller er tilgjengelige for testing i Qwen Chat-appen og på Hugging Face-plattformen. Qwen2.5-VL-72B-modellen har en spesiell lisens som krever autorisasjon for kommersiell bruk for selskaper med mer enn 100 millioner aktive brukere hver måned.
Kilde: @_philschmid @_philschmid