Від наміру до виконання: як Microsoft перетворює великі мовні моделі в орієнтований на дії ШІ

Зміст

Великі мовні моделі (LLM) мають змінено як ми обробляємо природну мову. Вони можуть відповідати на запитання, писати код і вести розмови. Проте, вони не вистачають, коли справа стосується реальних завдань. Наприклад, магістр права може допомогти вам придбати піджак, але не може зробити замовлення за вас. Цей розрив між мисленням і діянням є головним обмеженням. Людям потрібна не просто інформація; вони хочуть результатів.

Щоб подолати цей розрив, корпорація Майкрософт точіння LLM в агентів ШІ, орієнтованих на дію. Дозволяючи їм планувати, декомпонувати завдання та брати участь у реальних взаємодіях, вони дають можливість LLM ефективно керувати практичними завданнями. Ця зміна має потенціал змінити визначення можливостей LLM, перетворивши їх на інструменти, які автоматизують складні робочі процеси та спрощують повсякденні завдання. Давайте розглянемо, що потрібно для цього та як Microsoft підходить до вирішення проблеми.

Що LLM потрібно діяти

Щоб магістратури могли виконувати завдання в реальному світі, їм потрібно вийти за рамки розуміння тексту. Вони повинні взаємодіяти з цифровим і фізичним середовищем, адаптуючись до мінливих умов. Ось деякі з можливостей, які їм потрібні:

Розуміння намірів користувача

Щоб діяти ефективно, LLM повинні розуміти запити користувачів. Такі введення, як текст або голосові команди, часто нечіткі або неповні. Система повинна заповнити прогалини, використовуючи свої знання та контекст запиту. Багатоетапні розмови можуть допомогти уточнити ці наміри, забезпечуючи розуміння ШІ перед тим, як вжити заходів.

Перетворення намірів у дії

Зрозумівши завдання, магістри LLM повинні перетворити його на практичні кроки. Це може включати натискання кнопок, виклик API або керування фізичними пристроями. LLMs необхідно модифікувати свої дії відповідно до конкретного завдання, адаптуючись до навколишнього середовища та вирішуючи проблеми в міру їх виникнення.

Адаптація до змін

Реальні завдання не завжди йдуть за планом. LLMs повинні передбачати проблеми, коригувати кроки та знаходити альтернативи, коли виникають проблеми. Наприклад, якщо необхідний ресурс недоступний, система повинна знайти інший спосіб виконати завдання. Ця гнучкість гарантує, що процес не зупиняється, коли щось змінюється.

Спеціалізується на конкретних завданнях

Хоча LLM розроблені для загального використання, спеціалізація робить їх більш ефективними. Зосереджуючись на конкретних завданнях, ці системи можуть забезпечити кращі результати з меншими ресурсами. Це особливо важливо для пристроїв з обмеженою обчислювальною потужністю, наприклад смартфонів або вбудованих систем.

Розвиваючи ці навички, LLMs можуть вийти за межі простої обробки інформації. Вони можуть здійснювати значущі дії, прокладаючи шлях для плавної інтеграції штучного інтелекту в повсякденні робочі процеси.

Як Microsoft трансформує LLM

Підхід Microsoft до створення орієнтованого на дії ШІ слідує структурованому процесу. Основна мета полягає в тому, щоб дати можливість LLM розуміти команди, ефективно планувати та вживати заходів. Ось як вони це роблять:

Крок 1: Збір і підготовка даних

У першій фразі вони зібрали дані, пов’язані з їхніми конкретними випадками використання: UFO Agent (описано нижче). Дані містять запити користувачів, деталі навколишнього середовища та дії, пов’язані з конкретними завданнями. На цьому етапі збираються два різні типи даних: по-перше, вони збирають дані плану завдань, які допомагають магістрам освіти окреслити кроки високого рівня, необхідні для виконання завдання. Наприклад, «Змінити розмір шрифту в Word» може передбачати такі дії, як виділення тексту та налаштування параметрів панелі інструментів. По-друге, вони збирали дані про завдання та дії, дозволяючи магістрам права перетворювати ці кроки в точні інструкції, як-от натискання певних кнопок або використання комбінацій клавіш.

Ця комбінація дає моделі як загальну картину, так і докладні інструкції, необхідні для ефективного виконання завдань.

Крок 2: Навчання моделі

Після збору даних LLM уточнюються під час кількох навчальних сесій. На першому етапі LLM навчають планувати завдання, навчаючи їх розбивати запити користувачів на практичні кроки. Потім дані, позначені експертами, використовуються, щоб навчити їх перетворювати ці плани на конкретні дії. Щоб ще більше розширити свої можливості вирішення проблем, LLM залучилися до самостійного процесу дослідження, який дає їм змогу вирішувати невирішені завдання та генерувати нові приклади для постійного навчання. Нарешті, застосовується навчання з підкріпленням, використовуючи зворотний зв’язок від успіхів і невдач для подальшого вдосконалення процесу прийняття рішень.

Крок 3: Тестування в автономному режимі

Після навчання модель перевіряється в контрольованому середовищі для забезпечення надійності. Такі показники Рівень успішності завдання (TSR) і Step Success Rate (SSR) використовуються для вимірювання ефективності. Наприклад, тестування агента керування календарем може передбачати перевірку його здатності планувати зустрічі та надсилати запрошення без помилок.

Крок 4: Інтеграція в реальні системи

Після перевірки модель інтегрується в структуру агента. Це дозволило йому взаємодіяти з реальним середовищем, наприклад натисканням кнопок або навігацією по меню. Такі інструменти, як UI Automation API, допомогли системі динамічно ідентифікувати елементи інтерфейсу користувача та керувати ними.

Наприклад, якщо йому доручено виділити текст у Word, агент визначає кнопку виділення, виділяє текст і застосовує форматування. Компонент пам’яті може допомогти LLM відстежувати минулі дії, дозволяючи йому адаптуватися до нових сценаріїв.

Крок 5: Тестування в реальному світі

Останнім кроком є онлайн-оцінювання. Тут система перевіряється в реальних сценаріях, щоб переконатися, що вона здатна впоратися з неочікуваними змінами та помилками. Наприклад, бот служби підтримки клієнтів може допомогти користувачам скинути пароль, адаптуючись до неправильних введень або відсутньої інформації. Це тестування гарантує, що ШІ надійний і готовий до щоденного використання.

Практичний приклад: агент НЛО

Щоб продемонструвати, як працює штучний інтелект, орієнтований на дії, Microsoft розробила Агент НЛО. Ця система розроблена для виконання реальних завдань у середовищі Windows, перетворюючи запити користувачів на виконані дії.

По суті, UFO Agent використовує LLM для інтерпретації запитів і планування дій. Наприклад, якщо користувач каже: «Виділіть слово «важливий» у цьому документі», агент взаємодіє з Word, щоб виконати завдання. Він збирає контекстну інформацію, як-от положення елементів керування інтерфейсу користувача, і використовує її для планування та виконання дій.

UFO Agent покладається на такі інструменти, як Автоматизація інтерфейсу Windows (МАУ) API. Цей API сканує програми на предмет елементів керування, таких як кнопки чи меню. Для такого завдання, як «Зберегти документ як PDF», агент використовує UIA, щоб визначити кнопку «Файл», знайти опцію «Зберегти як» і виконати необхідні дії. Послідовно структуруючи дані, система забезпечує безперебійну роботу від навчання до застосування в реальному світі.

Подолання викликів

Хоча це захоплююча розробка, створення орієнтованого на дії штучного інтелекту пов’язане з труднощами. Масштабованість є головною проблемою. Навчання та розгортання цих моделей для різноманітних завдань потребує значних ресурсів. Не менш важливим є забезпечення безпеки та надійності. Моделі повинні виконувати завдання без небажаних наслідків, особливо в делікатному середовищі. І оскільки ці системи взаємодіють із особистими даними, дотримання етичних стандартів щодо конфіденційності та безпеки також має вирішальне значення.

Дорожня карта Microsoft зосереджена на підвищенні ефективності, розширенні варіантів використання та дотриманні етичних стандартів. Завдяки цим досягненням магістратури можуть змінити спосіб взаємодії ШІ зі світом, зробивши їх більш практичними, адаптивними та орієнтованими на дії.

Майбутнє ШІ

Перетворення LLM в орієнтованих на дії агентів може кардинально змінити ситуацію. Ці системи можуть автоматизувати завдання, спростити робочі процеси та зробити технології більш доступними. Робота Microsoft над орієнтованим на дії ШІ та такими інструментами, як UFO Agent, — це лише початок. Оскільки штучний інтелект продовжує розвиватися, ми можемо сподіватися на розумніші та потужніші системи, які не просто взаємодіють з нами, вони виконують роботу.

Джерело

Що LLM потрібно діяти

Розуміння намірів користувача

Перетворення намірів у дії

Адаптація до змін

Спеціалізується на конкретних завданнях