Чат-боти автоматично відкидають підказки, які є неоднозначними з етичного чи юридичного погляду. Тож дослідникам стало цікаво, чи зможуть вони обійти це обмеження, використовуючи замість них слова, утворені з ASCII art. Ідея полягала в тому, що якщо вони зможуть передати значення, не використовуючи власне слово, вони зможуть обійти обмеження, пише Techspot.
Значення ASCII-арту легко зрозуміти людині, оскільки ми можемо бачити літери, з яких складаються символи. Однак LLM не може «бачити», може лише інтерпретувати рядки символів, наприклад, серію хештегів і пробілів, які не мають жодного сенсу.
Чат-боти чудово розуміють і виконують письмові інструкції, тому дослідники використали цю властивість, щоби створити набір простих інструкцій для перекладу мистецтва в слова. Потім ШІ настільки захопився переробленням ASCII на щось значуще, що якось забув про те, що інтерпретоване слово заборонене.
Використовуючи цю техніку, команда отримала детальні відповіді про виготовлення бомб, злам IoT-пристроїв, а також підробку та розповсюдження валюти від п’яти великих мовних моделей: GPT-3.5, GPT-4, Gemini, Claude та Llama2.
Слід зазначити, що команда опублікувала своє дослідження в лютому. Тож ці вразливості, можливо, уже виправлені.
Докладніше ознайомитися з результатами дослідження можна за посиланням.