Китайський ШІ-стартап MiniMax представив три нові моделі штучного інтелекту: чи зможуть вони конкурувати із західними аналогами

ШІ-стартап MiniMax, який підтримує Alibaba і Tencent, запустив три нові моделі: MiniMax-Text-01 — лише для текстів, MiniMax-VL-01 може розуміти як зображення, так і текст, T2A-01-HD генерує звук, зокрема, мову. Китайці стверджують, що усі вони кращі за ШІ-моделі від Google та Anthropic.

MiniMax-Text-01 має 456 млрд параметрів. Стартап стверджує, що ця модель працює краще, ніж нещодавно представлений Google Gemini 2.0 Flash, у таких бенчмарках, як MMLU та SimpleQA, які вимірюють здатність моделі відповідати на математичні задачі та питання, що базуються на фактах, пише TechCrunch.

Слід зазначити, що MiniMax-Text-01 має надзвичайно велике контекстне вікно, яке належать до вхідних даних (наприклад, тексту), які модель розглядає перед тим, як генерувати вихідні дані (додатковий текст). Маючи контекстне вікно в 4 млн токенів, MiniMax-Text-01 може проаналізувати близько 3 млн слів за один раз — або трохи більше ніж п’ять примірників «Війни і миру». Контекстне вікно MiniMax-Text-01 приблизно в 31 раз більше, ніж у GPT-4o та Llama 3.1.

Що стосується MiniMax-VL-01, MiniMax стверджує, що модель конкурує з Claude 3.5 Sonnet від Anthropic в оцінках, які вимагають мультимодального розуміння, таких як ChartQA, який ставить перед моделями завдання відповідати на запити, пов’язані з графіками та діаграмами (наприклад, «Яке пікове значення помаранчевої лінії на цьому графіку?»). Звичайно, MiniMax-VL-01 не зовсім перевершує Gemini 2.0 Flash у багатьох з цих тестів. OpenAI GPT-4o та відкрита модель InternVL2.5 також перевершують його в деяких тестах.

Остання з моделей MiniMax, випущена цього тижня, T2A-01-HD — це аудіогенератор, оптимізований для мовлення. T2A-01-HD може генерувати синтетичний голос з регульованою частотою, тоном і тенором приблизно на 17 різних мовах, включаючи англійську та китайську, а також клонувати голос із 10-секундного аудіозапису.

MiniMax не публікувала результатів порівняльного тестування T2A-01-HD з іншими моделями, що генерують звук. Але на думку TechCrunch, звук T2A-01-HD звучить на рівні з аудіомоделями від Meta і таких стартапів, як PlayAI.

За винятком T2A-01-HD, який доступний виключно через API MiniMax і ШІ-платформу Hailuo, нові моделі MiniMax можна завантажити з GitHub і платформи для розробки ШІ Hugging Face.

Однак те, що моделі є «відкрито» доступними, не означає, що вони не закриті в певних аспектах. MiniMax-Text-01 та MiniMax-VL-01 не є справді відкритими в тому сенсі, що MiniMax не випустила компоненти (наприклад, навчальні дані), необхідні для їхнього повторного створення з нуля. Ба більше, вони знаходяться під обмежувальною ліцензією MiniMax, яка забороняє розробникам використовувати моделі для поліпшення моделей ШІ конкурентів і вимагає, щоб платформи з більш ніж 100 млн активних користувачів щомісяця запитували спеціальну ліцензію від MiniMax.

Джерело

Схожі Новини

Залишити відповідь Скасувати коментар

Схожі Новини