Протягом останніх кількох тижнів OpenAI закладав основу. Тоді як більшість користувачів тільки починали по-справжньому досліджувати Завдання ChatGPT – нова функція, яка дозволяє користувачам планувати та запускати завдання – компанія готувалася до чогось набагато більшого.
Вчорашній випуск Оператор є ще одним чітким сигналом того, куди рухається штучний інтелект: від моделей, які просто обробляють інформацію, до агентів, які можуть активно працювати з нами.
Щодня ми витрачаємо незліченні години на навігацію веб-сайтами, заповнення форм, бронювання послуг і керування цифровими завданнями. ШІ здебільшого спостерігав збоку, обмежуючись наданням порад чи обробкою тексту. Оператор, а також деякі інші нещодавні оголошення агентів, як-от Антропік Використання комп'ютера і Google Проект Маринерповністю змінити цю динаміку.
Технічні досягнення тут значні. OpenAI створив штучний інтелект, який може бачити та взаємодіяти з веб-інтерфейсами, як це робить людина. Він робить знімки екрана, розуміє візуальні макети та приймає рішення про те, де натискати, що вводити та як переміщатися.
Ось що вам потрібно знати про Operator Agent: Хоча багато інструментів штучного інтелекту, по суті, застрягли в API та спеціалізованих інтеграціях, Operator працює з Інтернетом так само, як і ви. Він бачить екран, розуміє контекст і діє безпосередньо.
Більш детальний погляд на реальну продуктивність оператора
Коли компанії зі штучним інтелектом випускають тести, важливо уважно дивитися на те, що насправді означають цифри. Продуктивність оператора розповідає іншу історію в різних середовищах тестування.
Найбільш вражаючим показником є 87% успіху оператора на Тест WebVoyager. Це важливо, оскільки WebVoyager тестує реальні веб-сайти – фактичні платформи, якими ми користуємося щодня, наприклад Amazon і Google Maps. Це не контрольований лабораторний тест. Це виступ на природі.
Але коли ми дивимося на інші тести, ми бачимо більш нюансовану картину:
- Тест WebArena: 58,1% успіху. Тестування змодельованих веб-сайтів для таких завдань, як покупки та керування контентом. Нижча продуктивність тут насправді розкриває щось важливе про те, як агенти штучного інтелекту обробляють структуровані та неструктуровані середовища.
- OSWorld Benchmark: 38,1% успіху. Це перевіряє складні багатоетапні завдання, наприклад об’єднання PDF-файлів із електронних листів. Значне зниження продуктивності показує нам поточні обмеження агентів штучного інтелекту, коли завдання потребують кількох перемикань контексту.
Що мене цікавить у цих цифрах, так це те, як вони відображають моделі людського навчання. Зазвичай ми працюємо краще у знайомих реальних середовищах, ніж у штучних тестових сценаріях. Той факт, що Operator чудово справляється з реальними веб-сайтами, але бореться з імітаціями, говорить про те, що його навчання надає перевагу практичній користі над теоретичною ефективністю.
Ці тести встановлюють нові рекорди в автоматизації веб-переглядачів, але різні показники успіху в різних тестах говорять нам про щось важливе щодо стратегії OpenAI.
Подумайте про власний веб-перегляд. Більшість завдань прості: заповнення форм, здійснення покупок, запис на зустріч. Ось тут показник успіху оператора у 87% сяє. Більш складні завдання, де продуктивність падає, зазвичай це ті, де людський нагляд все одно є цінним.
Ці дані свідчать про те, що OpenAI робить свідомий вибір: спочатку удосконалити звичайні завдання, а потім поступово розширюватися до більш складних операцій. Це практичний підхід, який надає перевагу миттєвій корисності над теоретичними можливостями.
Підхід OpenAI до Operator демонструє ретельно організовану стратегію.
По-перше, враховуйте терміни. Нещодавнє впровадження таких функцій, як ChatGPT Tasks, стосувалося не лише додавання функцій, а й підготовки користувачів до роботи автономних агентів.
Але ось що дійсно цікаво: OpenAI планує представити модель CUA через API. Це означає, що розробники зможуть створювати власні комп’ютерні агенти.
Наслідки для цього значні:
- Інтеграційний потенціал
- Пряме включення в існуючі робочі процеси
- Спеціальні агенти для конкретних потреб бізнесу
- Індивідуальні рішення автоматизації
- Майбутній шлях розвитку
- Розширення для користувачів Plus, Team і Enterprise
- Пряма інтеграція ChatGPT
- Географічне розширення (хоча Європа займе більше часу через нормативні вимоги)
Стратегічне партнерство також показове. OpenAI намагається створити цілу екосистему. Вони співпрацюють з такими компаніями, як DoorDash, Instacart і OpenTable, а також з організаціями державного сектору, такими як City of Stockton.
Це вказує на майбутнє, де агенти штучного інтелекту будуть не просто помічниками, а невід’ємними частинами нашої взаємодії з цифровими системами.
Що це насправді означає для вас
Ми вступаємо у фазу, коли штучний інтелект не просто відповідає на запитання – він стає активним учасником нашого цифрового життя.
Подумайте про свої щоденні онлайн-завдання. Не складна, стратегічна робота, яка потребує вашого досвіду, а повторювані завдання. Я говорю про дослідження варіантів подорожей на кількох сайтах, заповнення стандартизованих форм, збір даних із різних веб-джерел та керування регулярними бронюваннями. Саме тут Operator спочатку усуває цифрову зайнятість. Але це не зупиниться. З часом агенти ШІ зможуть виконувати все складніші робочі процеси.
Ранні дані про продуктивність також говорять нам про дещо важливе: Оператор чудово справляється з рутинними веб-завданнями з показником успішності 87%. Ранні користувачі, які навчаться ефективно його інтегрувати, отримають значну перевагу в продуктивності.
Графік інтеграції показує ретельний підхід OpenAI. Вони починають із користувачів Pro у США, потім розширюються до користувачів Plus, Team і Enterprise, перш ніж, нарешті, інтегруються безпосередньо в ChatGPT.
Ми спостерігаємо фундаментальну зміну в роботі інструментів ШІ. Справжнє питання, яке ви повинні поставити собі, полягає не в тому, чи адаптуватися до цих змін, а в тому, як це зробити стратегічно. Технологія буде розвиватися, але принцип залишається: ШІ переходить від відповідей на запитання до дій. Ті, хто рано зрозуміє цю зміну, матимуть значну перевагу у формуванні того, як ці інструменти інтегруються в їхні робочі процеси.