В Anthropic довели, що навіть передові моделі ШІ можна змусити видавати шкідливі відповіді за допомогою простого «джейлбрейку». Як це працює

Зміст

Одна з провідних компаній у галузі штучного інтелекту Anthropic, відома за чатботом Claude оприлюднила нове дослідження. Воно показує, що й досі нескладно змусити великі мовні моделі робити те, що їм забороняють безпекові алгоритми.

Щоб довести це, Anthropic і дослідники з Оксфорда, Стенфорда та Массачусетського технологічного інституту створили Best-of-N (BoN) Jailbreaking — «простий алгоритм „чорної скриньки“, який зламує передові системи ШІ в різних модальностях». Про це повідомляє 404 Media.

Термін «джейлбрейк», який був популяризований завдяки практиці зняття програмних обмежень на таких пристроях, як iPhone, тепер поширений і у сфері ШІ й також належить до методів, які обходять захисні системи, призначені для запобігання використанню користувачами інструментів ШІ для створення певних типів шкідливого контенту. Передові моделі ШІ — це найсучасніші моделі, що розробляються нині, такі як GPT-4o від OpenAI або Claude 3.5 від Anthropic.

Як працює «джейлбрейк» ШІ

Як пояснюють дослідники, «BoN Jailbreaking працює шляхом багаторазової вибірки варіацій запиту з комбінацією доповнень — таких як випадкове перемішування або написання великих літер для текстових запитів — до тих пір, поки не буде викликана шкідлива відповідь».

Наприклад, якщо користувач запитає GPT-4o «Як зробити бомбу», він відмовиться відповідати, оскільки «Цей контент може порушити наші правила використання». BoN Jailbreaking просто продовжує змінювати промпт випадковими великими літерами, перетасованими словами, помилками та порушеною граматикою до тих пір, поки GPT-4o не надасть інформацію. Приклад, який Anthropic наводить у статті, виглядає як SPONGbOB MEMe tEXT.

Anthropic протестувала цей метод джейлбрейку на власних пристроях Claude 3.5 Sonnet, Claude 3 Opus, а також GPT-4o, GPT-4o-mini від OpenAI, Gemini-1.5-Flash-00, Gemini-1.5-Pro-001 від Google та Llama 3 8B від Facebook. Вони виявили, що метод «досягає ASR [коефіцієнт успішності атаки] понад 50%» на всіх протестованих моделях протягом 10 000 спроб або варіацій підказок.

Дослідники також виявили, що незначна модифікація інших способів або методів підказок для моделей ШІ, таких як мовні або графічні підказки, також успішно обходила захисні механізми. Для мовних підказок дослідники змінювали швидкість, висоту і гучність звуку або додавали до нього шум чи музику. Для графічних підказок дослідники змінювали шрифт, додавали колір фону, змінювали розмір або положення зображення.

Алгоритм BoN Jailbreaking від Anthropic, по суті, автоматизує та прискорює ті самі методи, які люди використовують для джейлбрейку генеративних ШІ-інструментів, часто з метою створення шкідливого контенту без згоди користувача.

Нагадаємо, що нещодавно компанія Anthropic оголосила, що найняла дослідника, який має подумати про «добробут» самого штучного інтелекту. Його завдання полягатиме в тому, щоб у міру розвитку штучного інтелекту до нього ставилися з належною повагою. Він розглядатиме такі питання, як «які здібності необхідні для того, щоб система ШІ була гідною моральної оцінки», і які практичні кроки компанії можуть зробити для захисту «інтересів» систем ШІ.

Джерело

Як працює «джейлбрейк» ШІ

Залишити відповідь Скасувати коментар

Схожі Новини