За даними The Information, OpenAI планує випустити Operator у січні. Код, викритий Блахо на цих вихідних, підтверджує цю інформацію.
За його інформацією, у десктопній версії ChatGPT на macOS є приховані функції для включення та вимкнення Operator. Крім того, OpenAI додала посилання на агента на своєму сайті — хоча ці посилання поки що не є загальнодоступними, пише TechCrunch.
На сайті OpenAI також є ще не опубліковані таблиці, в яких порівнюється продуктивність Operator з іншими системами штучного інтелекту для ПК. Якщо цифри точні, вони свідчать про те, що Operator не є на 100% надійним, залежно від завдання.
У тесті OSWorld, який намагається імітувати реальне комп’ютерне середовище, «OpenAI Computer Use Agent (CUA)» — можливо, модель ШІ, що керує агентом, — набрала 38,1%, випередивши модель керування комп’ютером від Anthropic, але значно відставши від 72,4%, отриманих людиною. OpenAI CUA перевершує людські показники в тесті WebVoyager, який оцінює здатність штучного інтелекту орієнтуватися на сайтах і взаємодіяти з ними. Але модель не дотягує до людського рівня в іншому вебтесті WebArena.
У тесті, в якому Operator потрібно було зареєструватися у хмарного провайдера і запустити віртуальну машину, агент впорався з завданням лише в 60% випадків. Створити гаманець для біткоїнів зміг лише у 10% випадків.
Один з графіків показує, що Operator добре справляється з окремими оцінками безпеки, включаючи тести, які намагаються змусити систему виконувати «незаконні дії» і шукати «конфіденційні персональні дані». Саме тестування безпеки є однією з причин тривалого циклу розробки ШІ-агента.