Якщо навчите чат-бота читати ASCII art, він навчить вас, як зробити бомбу

Великі мовні моделі мають обмеження щодо небезпечних, неетичних та незаконних тем. Але дослідники декількох американських університетів знайшли спосіб, як обійти їх. Робили вони це за допомогою техніки під назвою ArtPrompt, яка передбачає створення художньої «маски» ASCII для слова, щоб змусити чат-бот надавати відповіді на заборонені теми.

Чат-боти автоматично відкидають підказки, які є неоднозначними з етичного чи юридичного погляду. Тож дослідникам стало цікаво, чи зможуть вони обійти це обмеження, використовуючи замість них слова, утворені з ASCII art. Ідея полягала в тому, що якщо вони зможуть передати значення, не використовуючи власне слово, вони зможуть обійти обмеження, пише Techspot.

Значення ASCII-арту легко зрозуміти людині, оскільки ми можемо бачити літери, з яких складаються символи. Однак LLM не може «бачити», може лише інтерпретувати рядки символів, наприклад, серію хештегів і пробілів, які не мають жодного сенсу.

Чат-боти чудово розуміють і виконують письмові інструкції, тому дослідники використали цю властивість, щоби створити набір простих інструкцій для перекладу мистецтва в слова. Потім ШІ настільки захопився переробленням ASCII на щось значуще, що якось забув про те, що інтерпретоване слово заборонене.

Використовуючи цю техніку, команда отримала детальні відповіді про виготовлення бомб, злам IoT-пристроїв, а також підробку та розповсюдження валюти від п’яти великих мовних моделей: GPT-3.5, GPT-4, Gemini, Claude та Llama2.