Моделі, які доступні для завантаження з платформи для розробників ШІ Hugging Face, є частиною нового сімейства моделей, яке DeepSeek називає Janus Pro. Вони мають від 1 мільярда до 7 мільярдів параметрів — показником, що корелює з навичками моделі розв’язувати завдання. Моделі з більшою кількістю параметрів, як правило, працюють краще, ніж моделі з меншою кількістю параметрів, пише TechCrunch.
Janus Pro, який DeepSeek описує як «новий фреймворк авторегресії», може як аналізувати, так і створювати нові зображення. За даними компанії, у двох тестах для оцінки ШІ, GenEval і DPG-Bench, найбільша модель Janus Pro, Janus Pro 7B, перевершує DALL-E 3, а також такі моделі, як PixArt-alpha, Emu3-Gen і Stability AI’s Stable Diffusion XL.
Звісно, деякі з цих моделей старіші, і Janus Pro може аналізувати та генерувати лише невеликі зображення з роздільною здатністю до 384×384. Але продуктивність Janus Pro вражає, враховуючи компактні розміри моделей.
«Janus Pro перевершує попередню уніфіковану модель і відповідає або перевищує продуктивність моделей для конкретних завдань. Простота, висока гнучкість і ефективність Janus Pro роблять його сильним кандидатом на роль уніфікованої мультимодальної моделі наступного покоління», — пише DeepSeek у публікації на Hugging Face.
Janus Pro має ліцензію Массачусетського технологічного інституту, тобто цей ШІ можна використовувати в комерційних цілях без обмежень.
DeepSeek, китайська лабораторія штучного інтелекту, що фінансується в основному компанією High-Flyer Capital Management, нещодавно стала популярною після того, як її чатбот піднявся на вершину чартів Apple App Store.
Мовні моделі DeepSeek, які були навчені за допомогою ефективних обчислювальних методів, змусили багатьох аналітиків і технологів на Заході замислитися над тим, чи зможуть США утримати лідерство в перегонах ШІ й чи збережеться попит на ШІ-чіпи. Це хвилювання спровокувало падіння цін на акції технологічних компаній, включно з топовим виробником графічних процесорів Nvidia, а Марк Цукерберг поспішив із заявою, що Meta планує вкласти $60 млрд у 2025 році в розвиток ШІ.
Хайп довкола DeepSeek став таким великим, що навіть співзасновник monobank Олег Гороховський та очільник Мінцифри Михайло Федоров написали, загадкові лаконічні пости про стартап. Останній згодом опублікував розгорнутіший допис в Telegram.
«Думаємо, DeepSeek це скоріш не революція, а еволюція: вони вдало поєднали вже наявні розробки й зробили це дешевше. Але це навряд чи вплине на перегони за створення AGI (супер-ШІ), яка залишається головною метою галузі. Поточна реакція ринку може бути перебільшеною, але інвестори починають замислюватися над ефективністю великих витрат у ШІ (згадаємо 500 мільярдів на Stargate)», — відзначив Федоров.
Раніше dev.ua зробив детальний розбір того, як DeepSeek вдалося перевершити конкурентів.