Популярний китайський стартап DeepSeek анонсував нову серію моделей ШІ Janus Pro, яка кидає виклик DALL-E 3


Китайська компанія DeepSeek, яка нещодавно стала популярною, і спровокувала занепокоєння у західних -компаніях, випустила новий набір мультимодальних моделей штучного інтелекту. В DeepSeek стверджують, що вони можуть перевершити генератор зображень DALL-E 3 від .

Моделі, які доступні для завантаження з платформи для розробників ШІ Hugging Face, є частиною нового сімейства моделей, яке DeepSeek називає Janus Pro. Вони мають від 1 мільярда до 7 мільярдів параметрів — показником, що корелює з навичками моделі розв’язувати завдання.  Моделі з більшою кількістю параметрів, як правило, працюють краще, ніж моделі з меншою кількістю параметрів, пише TechCrunch.

Janus Pro, який DeepSeek описує як «новий фреймворк регресії», може як аналізувати, так і створювати нові зображення. За даними компанії, у двох тестах для оцінки ШІ, GenEval і DPG-Bench, найбільша модель Janus Pro, Janus Pro 7B, перевершує DALL-E 3, а також такі моделі, як PixArt-alpha, Emu3-Gen і Stability AI’s Stable Diffusion XL.

Звісно, деякі з цих моделей старі, і Janus Pro може аналізувати та генерувати лише невеликі зображення з роздільною здатністю до 384×384. Але продуктивність Janus Pro вражає, враховуючи компактні розміри моделей.

Зображення: DeepSeek

«Janus Pro перевершує попередню уніфіковану модель і відповідає або перевищує продуктивність моделей для конкретних завдань. Простота, висока гнучкість і ефективність Janus Pro роблять його сильним кандидатом на роль уніфікованої мультимодальної моделі наступного покоління», — пише DeepSeek у публікації на Hugging Face.

Janus Pro має ліцензію Массачусетського технологічного інституту, тобто цей ШІ можна використовувати в комерційних цілях без обмежень.

DeepSeek, китайська лабораторія штучного інтелекту, що фінансується в основному компанією High-Flyer Capital Management, нещодавно стала популярною після того, як її чатбот піднявся на вершину чартів .

Мовні моделі DeepSeek, які були навчені за допомогою ефективних обчислювальних методів, змусили багатьох аналітиків і технологів на Заході замислитися над тим, чи зможуть США утримати лідерство в перегонах ШІ й чи збережеться попит на ШІ-чіпи. Це хвилювання спровокувало падіння цін на акції технологічних компаній, включно з топовим виробником графічних процесорів , а Марк Цукерберг поспішив із заявою, що  планує вкласти $60 млрд у 2025 році в розвиток ШІ.

Хайп довкола DeepSeek став таким великим, що навіть співзасновник Олег Гороховський та очільник Мінцифри Михайло Федоров написали, загадкові лаконічні пости про стартап. Останній згодом опублікував розгорнутіший допис в .

«Думаємо, ​​DeepSeek це скоріш не революція, а еволюція: вони вдало поєднали вже наявні розробки й зробили це дешевше. Але це навряд чи вплине на перегони за створення AGI (супер-ШІ), яка залишається головною метою галузі. Поточна реакція ринку може бути перебільшеною, але інвестори починають замислюватися над ефективністю великих витрат у ШІ (згадаємо 500 мільярдів на Stargate)», — відзначив Федоров.

Раніше dev.ua зробив детальний розбір того, як DeepSeek вдалося перевершити конкурентів.



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *