Що вам потрібно знати про оператора OpenAI


Протягом останніх кількох тижнів OpenAI закладав основу. Тоді як більшість користувачів тільки починали по-справжньому досліджувати Завдання ChatGPT – нова функція, яка дозволяє користувачам планувати та запускати завдання – компанія готувалася до чогось набагато більшого.

Вчорашній випуск Оператор є ще одним чітким сигналом того, куди рухається штучний інтелект: від моделей, які просто обробляють інформацію, до агентів, які можуть активно працювати з нами.

Щодня ми витрачаємо незліченні години на навігацію веб-сайтами, заповнення форм, бронювання послуг і керування цифровими завданнями. ШІ здебільшого спостерігав збоку, обмежуючись наданням порад чи обробкою тексту. Оператор, а також деякі інші нещодавні оголошення агентів, як-от Антропік Використання комп'ютера і Google Проект Маринерповністю змінити цю динаміку.

Технічні досягнення тут значні. OpenAI створив штучний інтелект, який може бачити та взаємодіяти з веб-інтерфейсами, як це робить людина. Він робить знімки екрана, розуміє візуальні макети та приймає рішення про те, де натискати, що вводити та як переміщатися.

Ось що вам потрібно знати про Operator Agent: Хоча багато інструментів штучного інтелекту, по суті, застрягли в API та спеціалізованих інтеграціях, Operator працює з Інтернетом так само, як і ви. Він бачить екран, розуміє контекст і діє безпосередньо.

Більш детальний погляд на реальну продуктивність оператора

Коли компанії зі штучним інтелектом випускають тести, важливо уважно дивитися на те, що насправді означають цифри. Продуктивність оператора розповідає іншу історію в різних середовищах тестування.

Найбільш вражаючим показником є ​​87% успіху оператора на Тест WebVoyager. Це важливо, оскільки WebVoyager тестує реальні веб-сайти – фактичні платформи, якими ми користуємося щодня, наприклад Amazon і Google Maps. Це не контрольований лабораторний тест. Це виступ на природі.

Але коли ми дивимося на інші тести, ми бачимо більш нюансовану картину:

  • Тест WebArena: 58,1% успіху. Тестування змодельованих веб-сайтів для таких завдань, як покупки та керування контентом. Нижча продуктивність тут насправді розкриває щось важливе про те, як агенти штучного інтелекту обробляють структуровані та неструктуровані середовища.
  • OSWorld Benchmark: 38,1% успіху. Це перевіряє складні багатоетапні завдання, наприклад об’єднання PDF-файлів із електронних листів. Значне зниження продуктивності показує нам поточні обмеження агентів штучного інтелекту, коли завдання потребують кількох перемикань контексту.

Що мене цікавить у цих цифрах, так це те, як вони відображають моделі людського навчання. Зазвичай ми працюємо краще у знайомих реальних середовищах, ніж у штучних тестових сценаріях. Той факт, що Operator чудово справляється з реальними веб-сайтами, але бореться з імітаціями, говорить про те, що його навчання надає перевагу практичній користі над теоретичною ефективністю.

Ці тести встановлюють нові рекорди в автоматизації веб-переглядачів, але різні показники успіху в різних тестах говорять нам про щось важливе щодо стратегії OpenAI.

Подумайте про власний веб-перегляд. Більшість завдань прості: заповнення форм, здійснення покупок, запис на зустріч. Ось тут показник успіху оператора у 87% сяє. Більш складні завдання, де продуктивність падає, зазвичай це ті, де людський нагляд все одно є цінним.

Ці дані свідчать про те, що OpenAI робить свідомий вибір: спочатку удосконалити звичайні завдання, а потім поступово розширюватися до більш складних операцій. Це практичний підхід, який надає перевагу миттєвій корисності над теоретичними можливостями.

Тести AI Agent (OpenAI)

Підхід OpenAI до Operator демонструє ретельно організовану стратегію.

По-перше, враховуйте терміни. Нещодавнє впровадження таких функцій, як ChatGPT Tasks, стосувалося не лише додавання функцій, а й підготовки користувачів до роботи автономних агентів.

Але ось що дійсно цікаво: OpenAI планує представити модель CUA через API. Це означає, що розробники зможуть створювати власні комп’ютерні агенти.

Наслідки для цього значні:

  1. Інтеграційний потенціал
  • Пряме включення в існуючі робочі процеси
  • Спеціальні агенти для конкретних потреб бізнесу
  • Індивідуальні рішення автоматизації
  1. Майбутній шлях розвитку
  • Розширення для користувачів Plus, Team і Enterprise
  • Пряма інтеграція ChatGPT
  • Географічне розширення (хоча Європа займе більше часу через нормативні вимоги)

Стратегічне партнерство також показове. OpenAI намагається створити цілу екосистему. Вони співпрацюють з такими компаніями, як DoorDash, Instacart і OpenTable, а також з організаціями державного сектору, такими як City of Stockton.

Це вказує на майбутнє, де агенти штучного інтелекту будуть не просто помічниками, а невід’ємними частинами нашої взаємодії з цифровими системами.

Що це насправді означає для вас

Ми вступаємо у фазу, коли штучний інтелект не просто відповідає на запитання – він стає активним учасником нашого цифрового життя.

Подумайте про свої щоденні онлайн-завдання. Не складна, стратегічна робота, яка потребує вашого досвіду, а повторювані завдання. Я говорю про дослідження варіантів подорожей на кількох сайтах, заповнення стандартизованих форм, збір даних із різних веб-джерел та керування регулярними бронюваннями. Саме тут Operator спочатку усуває цифрову зайнятість. Але це не зупиниться. З часом агенти ШІ зможуть виконувати все складніші робочі процеси.

Ранні дані про продуктивність також говорять нам про дещо важливе: Оператор чудово справляється з рутинними веб-завданнями з показником успішності 87%. Ранні користувачі, які навчаться ефективно його інтегрувати, отримають значну перевагу в продуктивності.

Графік інтеграції показує ретельний підхід OpenAI. Вони починають із користувачів Pro у США, потім розширюються до користувачів Plus, Team і Enterprise, перш ніж, нарешті, інтегруються безпосередньо в ChatGPT.

Ми спостерігаємо фундаментальну зміну в роботі інструментів ШІ. Справжнє питання, яке ви повинні поставити собі, полягає не в тому, чи адаптуватися до цих змін, а в тому, як це зробити стратегічно. Технологія буде розвиватися, але принцип залишається: ШІ переходить від відповідей на запитання до дій. Ті, хто рано зрозуміє цю зміну, матимуть значну перевагу у формуванні того, як ці інструменти інтегруються в їхні робочі процеси.



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *