Колишні інженери Google і Apple запустили платформу штучного інтелекту Oumi з відкритим кодом, яка може допомогти створити наступний DeepSeek


Новий стартап Oumi AI, який очолюють колишні ветерани та  у сфері , представили однойменну платформу, яка надає дослідникам і розробникам повний набір інструментів для створення, оцінки та розгортання базових моделей ШІ.

Після успіху DeepSeek-R1, стало точно зрозуміло: відкритий код дійсно має значення для ШІ.

Але що таке ШІ з відкритим вихідним кодом? Для та її моделей Llama це означає вільний доступ до використання моделі за певних умов. DeepSeek доступний за дозвільною ліцензією з відкритим вихідним кодом, що забезпечує значний доступ до його архітектури та можливостей. Однак, конкретний навчальний код і детальні методики, особливо ті, що включають методи навчання з підкріпленням (RL), такі як групова відносна оптимізація політики (GRPO), не були публічно розкриті. Це обмежує можливість повністю зрозуміти і відтворити процес навчання моделі.

Однак ні DeepSeek, ні Llama не дають повного і безумовного доступу до всього коду моделі, включаючи ваги та навчальні дані. Без цієї інформації розробники все ще можуть працювати з відкритою моделлю, але вони не мають усіх необхідних інструментів та знань, щоб зрозуміти, як вона насправді працює, і, що важливіше, як побудувати абсолютно нову модель. Саме цю проблему намагається вирішити новий стартап, очолюваний колишніми ветеранами Google та Apple у сфері ШІ.

Стартап Oumi підтримує альянс, до складу якого входять з 13 провідних дослідницьких університетів, серед яких Принстон, Стенфорд, Массачусетський технологічний інститут, Берклі, Оксфордський університет, Кембриджський університет, Університет Ватерлоо та Карнегі-Меллон.

Засновники Oumi залучили $10 млн — скромний посівний раунд, який, за їхніми словами, відповідає їхнім потребам. У той час як великі гравці, такі як , планують інвестувати $500 млрд у величезні центри обробки даних за допомогою таких проєктів, як Stargate, Oumi застосовує радикально інший підхід. Платформа надає дослідникам і розробникам повний набір інструментів для побудови, оцінки та розгортання фундаментальних моделей.

«Навіть найбіль компанії не можуть зробити це самостійно, — сказав VentureBeat Уссама Елачкар, співзасновник Oumi, який раніше працював інженером з машинного навчання в Apple. «Ми ефективно працювали в ізоляції всередині Apple, і є багато інших ізоляцій, що відбуваються по всій індустрії. Повинен бути кращий спосіб спільної розробки цих моделей».

Чого бракує моделям із відкритим кодом, таким як DeepSeek і Llama

Генеральний директор Oumi і колишній старший менеджер з розробки Google Cloud AI Манос Кукумідіс сказав VentureBeat, що дослідники постійно кажуть йому, що експерименти зі штучним інтелектом стали надзвичайно складними.

Хоча сьогоднішні відкриті моделі є кроком вперед, цього недостатньо. Кукумідіс пояснив, що завдяки поточним «відкритим» моделям штучного інтелекту, таким як DeepSeek-R1 і Llama, організація може використовувати модель і розгортати її самостійно. Чого не вистачає, так це того, що будь-хто інший, хто хоче створити модель, не знає, як саме вона була побудована.

Засновники Oumi вважають, що відсутність прозорості є основною перешкодою для спільних досліджень і розробок ШІ. Навіть такий проєкт, як Llama, потребує значних зусиль від дослідників, щоб зрозуміти, як відтворити та розвинути роботу.

Як працює Oumi, щоб відкрити штучний інтелект для корпоративних користувачів, дослідників і всіх інших

Платформа Oumi працює, надаючи універсальне середовище, яке впорядковує складні робочі процеси, пов’язані з побудовою моделей ШІ.

Кукумідіс пояснив, що для побудови базової моделі, як правило, потрібно виконати 10 або більше кроків, часто паралельно. Oumi інтегрує всі необхідні інструменти та робочі процеси в єдине середовище, позбавляючи дослідників необхідності збирати та налаштовувати різні компоненти з відкритим вихідним кодом.

Основні технічні характеристики включають:

  • Підтримка моделей з параметрами від 10M до 405B.
  • Реалізація передових методів навчання, включаючи SFT, LoRA, QLoRA і DPO.
  • Сумісність як з текстовими, так і з мультимодальними моделями.
  • Вбудовані інструменти для синтезу та курації навчальних даних з використанням суддів LLM.
  • Можливості розгортання за допомогою сучасних механізмів виведення, таких як vLLM і SGLang.
  • Комплексна оцінка моделі за стандартними галузевими бенчмарками.

Платформа дозволяє користувачам починати з малого, використовуючи власні ноутбуки для початкових експериментів і навчання моделі. У міру прогресу користувачі можуть масштабуватись до більших обчислювальних ресурсів, таких як університетські кластери або хмарні провайдери, все в одному середовищі Oumi.

«Ідея про те, що вам потрібні сотні мільярдів доларів для інфраструктури штучного інтелекту, є фундаментально помилковою», — сказав Кукумідіс. «Завдяки розподіленим обчисленням між університетами та дослідницькими установами ми можемо досягти подібних або кращих результатів за невелику частку вартості».



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *