Багато облич підкріпленого навчання: формування великих мовних моделей

Зміст

Останніми роками великі мовні моделі (LLMS) значно переосмислили сферу штучного інтелекту (AI), що дозволило машинам розуміти та генерувати текст, схожий на людину, з чудовим знанням. Цей успіх значною мірою пояснюється просуванням методологій машинного навчання, включаючи глибоке навчання та підкріплення (RL). Незважаючи на те, що контрольоване навчання відіграє вирішальну роль у навчанні LLMS, навчання підкріплення стало потужним інструментом для вдосконалення та розширення їх можливостей поза простим розпізнаванням шаблонів.

Підсилення навчання дозволяє LLM навчатися з досвіду, оптимізуючи їх поведінку на основі нагород або штрафних санкцій. Різні варіанти RL, такі як підкріплення навчання з зворотного зв’язку людини (RLHF), підкріплення з перевірими нагородами (RLVR), груповою відносною оптимізацією політики (GRPO) та прямим оптимізацією переваг (DPO), були розроблені для тонкого налаштування LLM,, Забезпечення їх вирівнювання з людськими уподобаннями та вдосконаленням їх міркувальних здібностей.

У цій статті досліджуються різні підходи до навчання, що формують LLMS, вивчаючи їх внесок та вплив на розвиток ШІ.

Розуміння навчання підкріплення в ШІ

Навчання підкріплення (RL) – це парадигма машинного навчання, де агент вчиться приймати рішення, взаємодіючи з навколишнім середовищем. Замість того, щоб покладатися виключно на мічені набори даних, агент вживає дій, отримує відгук у вигляді винагород або штрафних санкцій, і відповідно коригує свою стратегію.

Для LLMS навчання підкріплення гарантує, що моделі генерують відповіді, які відповідають людським уподобанням, етичними рекомендаціями та практичними міркуваннями. Мета полягає не лише в тому, щоб створити синтаксично правильні речення, а й зробити їх корисними, значущими та узгодженими з суспільними нормами.

Підсилення навчання з відгуків людини (RLHF)

Однією з найбільш широко використовуваних методик RL у навчанні LLM є RLHF. Замість того, щоб покладатися виключно на заздалегідь визначені набори даних, RLHF покращує LLMS, включивши людські уподобання в навчальний цикл. Цей процес, як правило, включає:

Збір відгуків людини: Оцінювачі людини оцінюють відповіді, створені моделями, та оцінюють їх на основі якості, узгодженості, корисності та точності.
Навчання моделі винагороди: Потім ці рейтинги використовуються для підготовки окремої моделі винагород, яка передбачає, яка виведення людей вважає за краще.
Тонка настройка з RL: LLM навчається з використанням цієї моделі винагороди для уточнення її відповідей на основі людських уподобань.

Цей підхід застосовувався для вдосконалення таких моделей, як Chatgpt та Claude. Незважаючи на те, що RLHF відігравав життєво важливу роль у тому, щоб LLMS більш узгоджувалася з уподобаннями користувачів, зменшенні упередженості та підвищенні їх здатності дотримуватися складних інструкцій, це є ресурсним, що вимагає великої кількості людських анотаторів для оцінки та тонко налаштованих результатів AI. Це обмеження змусило дослідників досліджувати альтернативні методи, такі як Підготовка навчання із відгуків AI (RLAIF) і Навчання підкріплення з перевіреними нагородами (RLVR).

Rlaif: підкріплення з відгуків AI

На відміну від RLHF, RLAIF покладається на уподобання AI-генерації для тренування LLMS, а не на відгуки людини. Він працює, використовуючи іншу систему AI, як правило, LLM, щоб оцінити та ранувати відповіді, створюючи автоматизовану систему винагород, яка може керувати навчальним процесом LLM.

Цей підхід стосується проблем масштабності, пов’язаних з RLHF, де анотації людини можуть бути дорогими та трудомісткими. Використовуючи зворотній зв’язок AI, RLAIF підвищує послідовність та ефективність, зменшуючи мінливість, введену суб’єктивними думками людини. Хоча RLAIF є цінним підходом до вдосконалення LLM в масштабі, він іноді може посилити наявні упередження, присутні в системі AI.

Навчання підкріплення з перевіреними нагородами (RLVR)

У той час як RLHF та RLAIF покладаються на суб’єктивний зворотний зв’язок, RLVR використовує об’єктивні, програмно перевірені винагороди для підготовки LLMS. Цей метод особливо ефективний для завдань, які мають чіткий критерій правильності, наприклад:

Математичне вирішення проблем
Генерування коду
Структурована обробка даних

У RLVR відповіді моделі оцінюються за допомогою заздалегідь визначених правил або алгоритмів. Перевірена функція винагороди визначає, чи відповідає відповіді очікуваним критеріям, присвоюючи високу оцінку для виправлення відповідей та низький бал на невірні.

Цей підхід зменшує залежність від маркування людини та упередженості AI, що робить тренування більш масштабованим та рентабельним. Наприклад, у завданнях математичних міркувань RLVR використовувався для вдосконалення таких моделей R1-Zero DeepSeekдозволяючи їм саморобно без втручання людини.

Оптимізація навчання підкріплення для LLMS

Окрім вищезгаданих методик, які керують тим, як LLM отримують винагороду та вчаться з зворотного зв’язку, однаково вирішальним аспектом RL є те, як моделі приймають (або оптимізують) їх поведінку (або політику) на основі цих винагород. Тут вступають у вдосконалення техніки вдосконаленої оптимізації.

Оптимізація в RL – це по суті процес оновлення поведінки моделі для максимальної винагороди. Хоча традиційні підходи RL часто страждають від нестабільності та неефективності при тонкому настройці LLM, були розроблені нові підходи для оптимізації LLM. Тут є провідні стратегії оптимізації, що використовуються для навчання LLMS:

Оптимізація проксимальної політики (PPO): PPO-одна з найбільш широко використовуваних методів RL для тонкої настройки LLM. Основна проблема в RL – це забезпечення того, що оновлення моделі покращує продуктивність без раптових, різких змін, які можуть знизити якість відповіді. PPO звертається до цього шляхом впровадження контрольованих оновлень політики, вдосконалення відповідей моделі поступово та безпечно для підтримки стабільності. Це також врівноважує розвідку та експлуатацію, допомагаючи моделям виявити кращі відповіді, посилюючи ефективну поведінку. Крім того, PPO є ефективним для вибірки, використовуючи менші партії даних для скорочення часу тренувань, зберігаючи високу продуктивність. Цей метод широко використаний У таких моделях, як Chatgpt, забезпечення відповідей залишаються корисними, актуальними та узгоджені з людськими очікуваннями, не перевищуючи конкретні сигнали винагороди.
Оптимізація прямих переваг (DPO): DPO – це ще одна методика оптимізації RL, яка фокусується на безпосередньому оптимізації результатів моделі для узгодження з людськими уподобаннями. На відміну від традиційних алгоритмів RL, які покладаються на складне моделювання винагороди, DPO безпосередньо оптимізує модель на основі даних двійкових переваг – що означає, що він просто визначає, чи один вихід кращий за інший. Підхід покладається на оцінювачів людини, щоб оцінити кілька відповідей, створених моделлю для заданої підказки. Потім він тонко налаштовує модель для збільшення ймовірності отримання відповідей на більш високий рейтинг у майбутньому. DPO є особливо ефективним у сценаріях, де отримати детальні моделі винагороди важко. Спрощуючи RL, DPO дозволяє моделям AI покращити вихід без обчислювального навантаження, пов’язаного з більш складними методами RL.
Групова відносна оптимізація політики (GRPO): Однією з останніх розробки методів оптимізації RL для LLM є GRPO. Незважаючи на те, що типові методи RL, як -от PPO, вимагають значення цінностей для оцінки переваги різних відповідей, яка вимагає високої обчислювальної потужності та значних ресурсів пам’яті, GRPO усуває необхідність окремої моделі значення, використовуючи сигнали винагороди з різних поколінь за одним підказкою. Це означає, що замість того, щоб порівнювати результати зі статичною моделлю значення, вона порівнює їх один з одним, значно зменшуючи обчислювальні накладні витрати. Одне з найбільш помітних застосувань GRPO було помічено в DeepSeek R1-Zeroмодель, яка була навчена повністю без нагляду за тонкою настройкою та встигла розвинути передові навички міркування через самоеволюцію.

Підсумок

Навчання підкріплення відіграє вирішальну роль у вдосконаленні великих мовних моделей (LLM), посилюючи їх узгодження з людськими уподобаннями та оптимізуючи їхні здібності до міркувань. Такі методи, як RLHF, RLAIF та RLVR, забезпечують різні підходи до навчання на основі винагороди, тоді як методи оптимізації, такі як PPO, DPO та GRPO, покращують ефективність навчання та стабільність. По мірі того, як LLM продовжують розвиватися, роль підкріплення навчання стає критичною у тому, щоб зробити ці моделі більш розумними, етичними та розумними.

Джерело