Google робить навчання ШІ на 28% швидшим, використовуючи SLM як викладачів


Навчання великі мовні моделі (LLM) стала недосяжною для більшості організацій. З мільйонними витратами та обчислювальними вимогами, які змусять суперкомп’ютер пітніти, розробка ШІ залишається за дверима технічних гігантів. Але Google просто перевернув цю історію з ніг на голову, застосувавши такий простий підхід, що змушує задуматися, чому ніхто не подумав про це раніше: використання менших моделей ШІ як викладачів.

Як працює SALT: новий підхід до навчання моделей ШІ

У недавній дослідницькій статті під назвою «Невелика допомога — це дуже важливо: ефективне навчання LLM за допомогою невеликих LM,” Google Research і DeepMind представили SALT (Small model Aided Large model Training). Це новий метод, який кидає виклик нашому традиційному підходу до підготовки магістра права.

Чому це дослідження є важливим? Наразі навчання великих моделей штучного інтелекту схоже на спробу навчити когось усього, що йому потрібно знати про предмет одразу – це неефективно, дорого та часто обмежено організаціями з величезними обчислювальними ресурсами. SALT йде іншим шляхом, запроваджуючи двоетапний навчальний процес, який є інноваційним і практичним.

Розбираємо, як насправді працює SALT:

Етап 1: дистиляція знань

  • А менша мовна модель (SLM) діє як вчитель, поділяючи своє розуміння з більшою моделлю
  • Менша модель зосереджена на передачі своїх «навчених знань» через те, що дослідники називають «м’якими ярликами».
  • Думайте про це як про асистента вчителя, який опрацьовує базові поняття, перш ніж студент переходить до складних тем
  • Цей етап особливо ефективний у «легких» областях навчання – областях, де менша модель має сильну прогностичну впевненість

Етап 2: Самоконтрольоване навчання

  • Велика модель переходить на самостійне навчання
  • Він зосереджений на освоєнні складних моделей і складних завдань
  • Саме тут модель розвиває можливості, які перевищують ті, що міг би надати її менший «учитель».
  • Для переходу між етапами використовуються ретельно розроблені стратегії, включаючи лінійне зниження та спад лінійного співвідношення ваги втрати дистиляції

У нетехнічних термінах, iУявіть, що менша модель штучного інтелекту схожа на корисного викладача, який керує більшою моделлю на початкових етапах навчання. Цей викладач надає додаткову інформацію разом із їхніми відповідями, вказуючи, наскільки вони впевнені щодо кожної відповіді. Ця додаткова інформація, відома як «м’які мітки», допомагає більшій моделі навчатися швидше та ефективніше.

Тепер, коли більша модель штучного інтелекту стає більш потужною, їй потрібно перейти від покладення на репетитора до самостійного навчання. Тут вступають у гру «лінійний розпад» і «розпад лінійного відношення».

Подумайте про ці техніки як про поступове зменшення впливу викладача з часом:

  • Лінійний розпад: Це як повільне зменшення гучності голосу вихователя. Вказівки викладача стають менш помітними з кожним кроком, що дозволяє більшій моделі більше зосереджуватися на навчанні на самих необроблених даних.
  • Розпад лінійного відношення: Це схоже на встановлення балансу між порадою викладача та реальним завданням. У міру навчання акцент зміщується більше в бік початкового завдання, тоді як внесок викладача стає менш домінуючим.

Мета обох методів — забезпечити плавний перехід для більшої моделі ШІ, запобігаючи будь-яким раптовим змінам у її навчальній поведінці.

Результати переконливі. Коли дослідники Google перевірили SALT за допомогою SLM із 1,5 мільярда параметрів для навчання LLM із 2,8 мільярда параметрів на Набір даних Pileвони побачили:

  • Скорочення часу навчання на 28% порівняно з традиційними методами
  • Значні покращення продуктивності після тонкого налаштування:
    • Точність математичної задачі підскочила до 34,87% (порівняно з 31,84% вихідного рівня)
    • Розуміння прочитаного досягло 67% точності (з 63,7%)

Але що робить SALT справді інноваційним, так це його теоретична основа. Дослідники виявили, що навіть «слабша» модель вчителя може підвищити ефективність учня, досягнувши того, що вони називають «сприятливим компромісом упередженості та дисперсії». Простіше кажучи, менша модель допомагає більшій ефективніше вивчати фундаментальні шаблони, створюючи міцнішу основу для просунутого навчання.

Чому SALT може змінити ігрове поле для розробки ШІ

Пам’ятаєте, коли хмарні обчислення трансформували, хто міг створити технічну компанію? SALT може зробити те саме для розробки ШІ.

Я роками стежив за інноваціями в навчанні штучному інтелекту, і більшість проривів принесли користь переважно технологічним гігантам. Але СІЛЬ буває різною.

Ось що це може означати для майбутнього:

Для організацій з обмеженими ресурсами:

  • Можливо, вам більше не потрібна масивна обчислювальна інфраструктура для розробки ефективних моделей ШІ
  • Менші дослідницькі лабораторії та компанії можуть експериментувати з розробкою індивідуальних моделей
  • Скорочення часу навчання на 28% безпосередньо означає зниження витрат на обчислення
  • Що ще важливіше, ви могли б почати зі скромними обчислювальними ресурсами та досягти професійних результатів

Для ландшафту розвитку ШІ:

  • На поле може вийти більше гравців, що призведе до більш різноманітних і спеціалізованих рішень ШІ
  • Університети та дослідницькі установи могли б проводити більше експериментів із наявними ресурсами
  • Бар’єр входу для досліджень ШІ значно знижується
  • Ми можемо побачити нові програми в сферах, які раніше не могли дозволити собі розробку ШІ

Що це означає для майбутнього

Використовуючи невеликі моделі як викладачів, ми не лише робимо навчання штучного інтелекту ефективнішим – ми також докорінно змінюємо тих, хто бере участь у розробці ШІ. Наслідки виходять далеко за рамки лише технічних удосконалень.

Основні висновки, про які слід пам’ятати:

  • Скорочення часу навчання на 28% — це різниця між тим, чи розпочати проект ШІ, чи вважати його недосяжним
  • Поліпшення продуктивності (34,87% з математики, 67% із завдань з читання) показує, що доступність не завжди означає компроміс щодо якості
  • Підхід SALT доводить, що іноді найкращі рішення походять від перегляду основ, а не просто від збільшення обчислювальної потужності

На що звернути увагу:

  1. Слідкуйте за невеликими організаціями, які починають розробляти власні моделі ШІ
  2. Слідкуйте за новими програмами в сферах, які раніше не могли дозволити собі розробку ШІ
  3. Шукайте інновації в тому, як менші моделі використовуються для спеціальних завдань

Пам'ятайте: Справжня цінність SALT полягає в тому, як вона може змінити форму того, хто зможе впроваджувати інновації в ШІ. Незалежно від того, керуєте ви дослідницькою лабораторією, керуєте технічною командою чи просто зацікавлені в розробці ШІ, це той прорив, який може зробити вашу наступну велику ідею можливою.

Можливо, почніть думати про той проект штучного інтелекту, який ви вважали недосяжним. Це може бути більш можливим, ніж ви собі уявляєте.



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *