ШІ-підрозділ Qwen китайської компанії Alibaba, який є головним внутрішнім конкурентом DeepSeek, випустив нове сімейство моделей штучного інтелекту Qwen2.5-VL. Ці моделі можуть аналізувати файли, розуміти відео, рахувати об’єкти на зображеннях, а також керувати комп’ютером — подібно до ШІ-агента Operator від OpenAI. Звісно, ШІ має певні обмеження щодо тем, які йому дозволено обговорювати.
За результатами порівняльного аналізу, проведеного командою Qwen, найкраща модель Qwen2.5-VL перевершує GPT-4o від OpenAI, Claude 3.5 Sonnet від Anthropic і Gemini 2.0 Flash від Google за різними показниками розуміння відео, математики, аналізу документів і оцінювання відповідей на запитання, пише TechCrunch.
![](https://dev.ua/storage/images/93/42/17/59/original/f4b19522ed969a4460c058f8e50cd057.webp)
Qwen2.5-VL доступний для тестування в програмі Alibaba Qwen Chat і для завантаження з платформи розробників штучного інтелекту Hugging Face. Може аналізувати діаграми та графіки, витягувати дані зі сканованих рахунків-фактур і форм, а також «осягати» багатогодинне відео, каже команда Qwen. Також може розпізнавати «IP-адреси з фільмів і серіалів, а також широкий спектр продуктів», за словами команди, що свідчить про те, що моделі могли частково навчатися на роботах, захищених авторським правом.
Qwen2.5-VL, як будь-який китайський ШІ, має певні обмеження щодо тем, які він може обговорюватиме. Коли журналіст TechCrunch попросив найбільшу та найпотужнішу модель із сімейства, Qwen2.5-VL-72B, розповісти про «помилки Сі Цзіньпіна», Qwen Chat видав повідомлення про помилку.
Однією з найцікавіших особливостей Qwen2.5-VL є його здатність взаємодіяти з програмним забезпеченням — як на ПК, так і на мобільних пристроях. Відео, опубліковане на X Філіпом Шмідом, технічним керівником Hugging Face, показало, як Qwen2.5-VL запускає додаток Booking.com для Android і бронює рейс з Чунціна до Пекіна.
Don’t Miss @Alibaba_Qwen 2.5 VL! Despite all the Deepseek Hype, Qwen just dropped the best open Multimodal! Qwen 2.5 VL is a Vision Language Model that can control your computer, similar to the @OpenAI operator, extract structured information from charts, and more!
TL;DR;
3️⃣… pic.twitter.com/GeEGVdl0tI— Philipp Schmid (@_philschmid) January 27, 2025
На відео нижче модель Qwen2.5-VL керує програмами на робочому столі Linux, але, схоже, не робить нічого, окрім перемикання вкладок. Можливо, показовим є те, що за результатами бенчмаркінгу Qwen, Qwen2.5-VL отримала низькі бали в OSWorld, тесті, який намагається імітувати реальне комп’ютерне середовище.
Дві менш складні моделі серії Qwen2.5-VL, Qwen2.5-VL-3B і Qwen2.5-VL-7B, доступні за дозвільною ліцензією. Флагманська модель Qwen2.5-VL-72B, має спеціальну ліцензію Alibaba, яка вимагає, щоб компанії та розробники з більш ніж 100 млн активних користувачів щомісяця запитували дозвіл у Qwen/Alibaba, перш ніж розгортати модель на комерційній основі.
Нагадаємо, що китайська лабораторія ШІ DeepSeek привернула до себе купи уваги після того, як її чатбот піднявся на вершину чартів Apple App Store. Це хвилювання спровокувало падіння цін на акції технологічних компаній, включно з топовим виробником графічних процесорів Nvidia, а Марк Цукерберг поспішив із заявою, що Meta планує вкласти $60 млрд у 2025 році в розвиток ШІ.
Станом на вечір понеділка акції технологічних компаній втратили приблизно $1 трлн після прогресу китайського ШІ-стартапу DeepSeek.
Раніше dev.ua зробив детальний розбір того, як DeepSeek вдалося перевершити конкурентів.