Microsoft створила невелику ШІ-модель Phi-4, яка розв’язує математичні задачі краще, ніж значно більші моделі від Google


Корпорація Microsoft розробила невелику мовну модель, яка відрізняється решти подібних рішень компаній-конкурентів. Замість збільшення кількості параметрів, модель Phi-4 зробити меншою, але тренувати на синтетичних даних. 

Microsoft тренувала Phi-4 переважно на згенерованих машиною даних, а не на вебконтенті, як зазвичай. Математичні здібності моделі натякають на те, що включення більшої кількості синтетичних файлів у тренувальні набори даних для невеликих моделей може бути способом покращити їхні навички міркування, повідомляє Silicon Angle.

Phi-4 — це четверта ітерація серії мовних моделей з відкритим вихідним кодом, яку Microsoft представила минулого року. Її архітектура майже ідентична архітектурі попередниці, Phi-3-medium. Обидві нейромережі мають 14 мільярдів параметрів і можуть обробляти підказки, що містять до 4 000 токенів — одиниць даних, кожна з яких містить кілька символів. 

Моделі конкурентів, такі як GPT-4o від OpenAI та Gemini Ultra від Google, оперують сотнями мільярдів чи навіть трильйонами параметрів, але оптимізована архітектура Phi-4 забезпечує чудову продуктивність у складних математичних міркуваннях.

Однією з відмінностей є те, що Phi-4 має вдосконалений токенізатор. Це компонент, який розбиває підказки користувача на токени, що полегшує обробку тексту. 

Microsoft також покращила механізм уваги Phi-4. Це програмний компонент, за допомогою якого мовні моделі знаходять найважливіші деталі в тексті. Механізм уваги в попередньому поколінні Phi-3 міг розглядати лише до 2 000 лексем, в той час, як Phi-4 може аналізувати 4 000 лексем, введених користувачем.

Основна інновація в Phi-4 — це спосіб її навчання. Microsoft навчала модель, використовуючи щонайменше 50 синтетичних наборів даних, які в сукупності містили близько 400 мільярдів токенів. Дослідники компанії створили ці файли за допомогою багатоетапного процесу. 

Як навчали Phi-4

На першому етапі Microsoft зібрала контент із загальнодоступного Інтернету, наявних наборів даних для навчання штучного інтелекту та інших джерел. Інформація включала, серед іншого, десятки мільйонів пар запитань і відповідей.

Microsoft видалила питання, на які вона знайшла кілька ідентичних відповідей в Інтернеті. Розробники вважають, що це часто є ознакою того, що питання занадто просте. Крім того, Microsoft видалила питання, які здавалися занадто складними, оскільки наявні відповіді значно відрізнялися одна від одної.

Компанія використала цю початкову партію файлів як шаблон, на основі якого вона згенерувала синтетичні дані. Дослідники Microsoft використовували кілька різних методів для створення синтетичних файлів.

На одному етапі проєкту дослідники використовували штучний інтелект для переписування інформації з Інтернету в тестові запитання. Потім Microsoft доручила ШІ-моделі згенерувати відповіді. Нарешті, компанія доручила алгоритму проаналізувати свої відповіді та покращити їх, де це можливо. 

На іншому етапі проєкту Microsoft використала код з відкритим вихідним кодом як відправну точку процесу синтетичного генерування даних. Компанія ввела фрагмент коду в штучний інтелект і попросила його згенерувати запитання, правильною відповіддю на яке є наданий фрагмент коду. Потім це запитання було включено до навчального набору даних, який Microsoft використовувала для розробки Phi-4. 

Після створення початкової версії набору даних Microsoft перевірила його на точність за допомогою набору автоматизованих робочих процесів.

«Ми включили тести для перевірки наших синтетичних наборів даних, які вимагають багато міркувань. Дані синтетичного коду перевіряються за допомогою циклів виконання і тестів. Для наукових наборів даних питання беруться з наукових матеріалів», — пишуть розробники Phi-4 у своїй науковій статті.

Які результати показала модель Phi-4

Після завершення процесу навчання Microsoft оцінила якість вихідних даних Phi-4 за більш ніж десятком тестів. Алгоритм перевершив свого попередника за всіма показниками, окрім одного, в деяких випадках більш ніж на 20%.

Варто зазначити, що Phi-4 також випередив GPT-4o та нещодавно випущений Llama 3.3 від Meta Platforms Inc. у двох бенчмарках: GPQA та MATH. Перший набір даних складається з 448 запитань з декількома варіантами відповідей, що охоплюють різні наукові галузі. MATH включає математичні задачі. За даними Microsoft, Phi-4 перевершує Llama 3.3 більш ніж на 5% в обох тестах, попри те, що має в п’ятеро менше параметрів.

«Phi-4 перевершує аналогічні та більші моделі в математичних міркуваннях завдяки вдосконаленню всіх процесів, включаючи використання високоякісних синтетичних наборів даних, кураторство високоякісних органічних даних та інновації після навчання», — написав у своєму блозі Ече Камар, керівний директор групи AI Frontiers Microsoft, що займається розробкою ШІ.

Наразі Phi-4 доступний через сервіс Azure AI Foundry. Microsoft планує зробити код доступним на Hugging Face наступного тижня. 

Нагадаємо, що раніше Microsoft реалізувала нові можливості для свого чатбота зі штучним інтелектом Copilot на Windows та смартфонах. ШІ, зокрема отримав функції, які дозволяють йому розуміти й відповідати на питання про те, що знаходиться на екрані.



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *