Нові ШІ-моделі OpenAI о-серії перестануть відповідати на небезпечні запитання й можуть відмовити в інформації: як це працює

OpenAI анонсувала нове сімейство моделей штучного інтелекту o3, які, як стверджує компанія, є більш досконалими, ніж o1 чи будь-які інші, випущені до цього.

OpenAI стверджує, що використала нову парадигму безпеки для навчання своїх моделей o-серії, передає TechCrunch.

У п’ятницю OpenAI опублікувала нове дослідження, де йдеться про те, щоб змусити моделі o1 і o3 «думати» про політику безпеки компанії під час видачі відповіді — фази після того, як користувач натисне клавішу Enter у своєму запиті.

Згідно з дослідженням OpenAI, цей метод покращив відповідність o1 принципам безпеки компанії. Зокрема, була зменшена швидкість, з якою o1 відповідала на «небезпечні» запитання — принаймні на ті, які OpenAI вважав небезпечними — одночасно покращуючи його здатність відповідати на «нормальні».

TechCrunch пояснює, що o1 і o3 у цьому випадку працюють наступним чином: після того, як користувач натискає клавішу Enter у ChatGPT, цим моделям OpenAI потрібно від 5 секунд до кількох хвилин, щоб повторно запропонувати собі додаткові запитання. Модель розбиває проблему на менші кроки. Після цього процесу, який OpenAI називає «ланцюжком думок», моделі o-серії дають відповідь на основі отриманої ними інформації.

Ключова інновація щодо цього полягає в тому, що OpenAI навчив o1 і o3 повторно зіставляти свою відповідь із політикою безпеки OpenAI під час фази ланцюжка думок.

Наприклад, у прикладі з дослідження OpenAI користувач запитує модель штучного інтелекту, як створити реалістичну табличку для паркування людини з інвалідністю.

У ланцюжку думок модель цитує політику OpenAI й визначає, що особа потенційно запитує цю інформацію, щоб щось підробити. У відповіді модель просить вибачення та відмовляється надавати допомогу у запиті.

Видання додає, що OpenAI намагається модерувати відповіді своєї моделі штучного інтелекту щодо небезпечних підказок, що може включати, умовно, звернення до ChatGPT з проханням допомогти зробити бомбу, дістати наркотики чи скоїти певні злочини. Хоча деякі моделі відповідатимуть на ці запитання без вагань, OpenAI не хоче, щоб їхні моделі штучного інтелекту відповідали на такі запитання.

Нагадаємо, що напередодні ChatGPT став доступний у WhatsApp: потрібно лише додати чат-бота до контактів.

Водночас під час свят користувачі ChatGPT зможуть поговорити з віртуальним Санта-Клаусом через голосовий режим програми.

Джерело

Схожі Новини

Залишити відповідь Скасувати коментар

Схожі Новини