Alibabas Qwen2.5-VL AI-modell kan kjøre Booking.com på Android og bestille billetter fra Chongqing til Beijing (video)

Alibabas Qwen-team har kunngjort utgivelsen av en ny serie AI-modeller Qwen2.5-VL som er i stand til å utføre en rekke tekst- og bildeanalyseoppgaver.
Her er hva vi vet
Modellene kan behandle filer, forstå videoer, telle objekter i bilder og kontrollere PC-er, noe som ligner på modellen som fungerer i OpenAI Operator.
Ifølge testdata utkonkurrerer Qwen2.5-VL OpenAIs GPT-4, Anthropics Claude 3.5 og Googles Gemini 2.0 Flash når det gjelder videoforståelse, matematikk, dokumentanalyse og besvarelse av spørsmål. Modellen er i stand til å analysere grafer og diagrammer, trekke ut data fra skanninger av fakturaer og skjemaer, og "forstå" videoer som varer i flere timer.

Testresultater fra Qwen2.5-VL. Illustrasjon: Alibaba
En interessant egenskap ved Qwen2.5-VL er muligheten til å samhandle med programvare på PC-er og mobile enheter. En video som er lagt ut på X, viser en Qwen2.5-VL-modell som starter Booking.com-appen på Android og bestiller en flybillett fra Chongqing til Beijing. I en test på en Linux-dator viste modellen seg imidlertid å være mindre effektiv, og begrenset seg til å bytte fane.
Ikke gå glipp av @Alibaba_Qwen 2.5 VL! Til tross for all Deepseek Hype, Qwen droppet nettopp den beste åpne multimodale! Qwen 2.5 VL er en Vision Language Model som kan kontrollere datamaskinen din, i likhet med @OpenAI-operatøren, trekke ut strukturert informasjon fra diagrammer og mer!!!
- Philipp Schmid (@_philschmid) 27. januar 2025
TL; DR;
3️⃣ ... pic.twitter.com/GeEGVdl0tI
Qwen2.5-VL-modellene har også visse begrensninger på temaene de diskuterer, særlig i Qwen Chat, på grunn av kinesiske internettmyndigheters krav om å følge "sosialistiske kjerneverdier".
LMAO Qwen 2.5 VL kan utføre Computer Use, out of the box, og tar OpenAI Operator HEAD ON! ???? pic.twitter.com/lwMECXzNSu
- Vaibhav (VB) Srivastav (@reach_vb) 27. januar 2025
Qwen2.5-VL-modeller er tilgjengelige for testing i Qwen Chat-appen og på Hugging Face-plattformen. Qwen2.5-VL-72B-modellen har en spesiell lisens som krever autorisasjon for kommersiell bruk for selskaper med mer enn 100 millioner aktive brukere hver måned.
Kilde: @_philschmid @_philschmid