Дослідницька команда Apple зробила величезний крок вперед, розробивши нову мультимодальну модель великої мови “MM1”. Ця захоплююча розробка була детально описана в нещодавній статті під назвою “MM1: Методи, аналіз та висновки з мультимодальної підготовки до магістерської програми LLM”, і вона демонструє модель з вражаючими можливостями як у розпізнаванні зображень, так і в міркуваннях природною мовою.
MM1 поставляється в трьох розмірах: 3 мільярди, 7 мільярдів та 30 мільярдів параметрів. Дослідники використовували ці моделі для проведення експериментів, визначаючи ключові фактори, що впливають на продуктивність. Цікаво, що роздільна здатність зображення та кількість тегів зображення мають більший вплив, ніж візуальні мовні коннектори, а різні набори даних для попереднього навчання можуть суттєво впливати на ефективність моделі.
Дослідницька група ретельно побудувала MM1, використовуючи архітектуру “Mixture of Experts” та метод “Top-2 Gating”. Цей підхід не тільки дав чудові результати на тестах попереднього навчання, але й забезпечив високу продуктивність на існуючих мультимодальних тестах. Навіть після тонкого налаштування під конкретні завдання моделі MM1 зберегли конкурентну продуктивність.
Тестування показало, що моделі MM1-3B-Chat і MM1-7B-Chat перевершують більшість конкурентів аналогічного розміру на ринку. Ці моделі особливо відзначилися в таких завданнях, як VQAv2 (відповіді на запитання на основі зображення та тексту), TextVQA (відповіді на запитання на основі тексту про зображення) та ScienceQA (відповіді на наукові запитання).
Однак загальна продуктивність MM1 не зовсім перевершує моделі Gemini від Google або GPT-4V від OpenAI (поки що). Хоча MM1 ще не є абсолютним лідером, він все ж є значним кроком вперед для Apple у сфері штучного інтелекту.