OpenAI наблизилася до випуску ШІ-агента, який може контролювати ПК та виконувати дії замість користувача: що показали тести


Відомий точними інсайдами про майбутні ШІ-продукти програміст Тібор Блахо знайшов докази існування ШІ-агента від OpenAI, який має кодову назву Operator. Раніше повідомлялося, що цей інструмент зможе автономно виконувати такі завдання, як написання коду та бронювання квитків.

За даними The Information, OpenAI планує випустити Operator у січні. Код, викритий Блахо на цих вихідних, підтверджує цю інформацію. 

За його інформацією, у десктопній версії ChatGPT на macOS є приховані функції для включення та вимкнення Operator. Крім того, OpenAI додала посилання на агента на своєму сайті — хоча ці посилання поки що не є загальнодоступними, пише TechCrunch.

На сайті OpenAI також є ще не опубліковані таблиці, в яких порівнюється продуктивність Operator з іншими системами штучного інтелекту для ПК. Якщо цифри точні, вони свідчать про те, що Operator не є на 100% надійним, залежно від завдання.

У тесті OSWorld, який намагається імітувати реальне комп’ютерне середовище, «OpenAI Computer Use Agent (CUA)» — можливо, модель ШІ, що керує агентом, — набрала 38,1%, випередивши модель керування комп’ютером від Anthropic, але значно відставши від 72,4%, отриманих людиною. OpenAI CUA перевершує людські показники в тесті WebVoyager, який оцінює здатність штучного інтелекту орієнтуватися на сайтах і взаємодіяти з ними. Але модель не дотягує до людського рівня в іншому вебтесті WebArena.

У тесті, в якому Operator потрібно було зареєструватися у хмарного провайдера і запустити віртуальну машину, агент впорався з завданням лише в 60% випадків. Створити гаманець для біткоїнів зміг лише у 10% випадків.

Один з графіків показує, що Operator добре справляється з окремими оцінками безпеки, включаючи тести, які намагаються змусити систему виконувати «незаконні дії» і шукати «конфіденційні персональні дані». Саме тестування безпеки є однією з причин тривалого циклу розробки ШІ-агента.



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *