Штучний інтелект (AI) потребує даних і багато його. Збір необхідної інформації не завжди є викликом у сучасному середовищі, причому багато публічних наборів даних та стільки даних, що генеруються щодня. Забезпечення його, однак, є іншою справою.
Величезний розмір наборів даних про навчання AI та вплив моделей AI запрошують увагу з боку кіберзлочинців. Зі відношенням до AI збільшується, команди, що розробляють цю технологію, повинні бути обережними, щоб забезпечити безпеку своїх даних про навчання.
Чому дані про навчання AI потребують кращої безпеки
Дані, які ви використовуєте для підготовки моделі AI, можуть відображати реальні люди, підприємства чи події. Таким чином, ви можете керувати значною кількістю особистої інформації (PII), що спричинило б значні порушення конфіденційності, якщо його викриють. У 2023 році Microsoft зазнала такого інциденту, випадково викриваючи 38 Терабайт приватної інформації Під час дослідницького проекту AI.
Набори даних про навчання AI також можуть бути вразливими до більш шкідливих змагальних атак. Кіберзлочинці можуть змінити надійність моделі машинного навчання, маніпулюючи її навчальними даними, якщо вони зможуть отримати доступ до неї. Це тип атаки, відомий як отруєння даними, і розробники AI можуть не помітити наслідків, поки не пізно.
Дослідження показують, що отруєння Всього 0,001% набору даних достатньо, щоб пошкодити модель AI. Без належного захисту, така атака може призвести до серйозних наслідків, коли модель бачить реальну реалізацію. Наприклад, пошкоджений алгоритм самостійного керування може не помітити пішоходів. Альтернативно, резюме, що сканує інструмент AI, може дати упереджені результати.
За менш серйозних обставин зловмисники могли викрасти власну інформацію з навчального набору даних у акті промислового шпигунства. Вони також можуть заблокувати авторизованих користувачів із бази даних та вимагати викупу.
Оскільки AI стає все більш важливим для життя та бізнесу, кіберзлочинці можуть отримати більше, щоб отримати більше націлювання на бази даних. Усі ці ризики, у свою чергу, стають додатково тривожними.
5 кроків для забезпечення даних про навчання AI
Зважаючи на ці загрози, сприймайте безпеку серйозно під час навчання моделей AI. Ось п’ять кроків, які слід виконати, щоб забезпечити ваші дані про навчання AI.
1
Одним з найважливіших заходів є видалення кількості конфіденційних деталей у вашому навчальному наборі даних. Чим менше PII або інша цінна інформація є у вашій базі даних, тим менше ціль для хакерів. Порушення також буде менш вражаючим, якщо це станеться в цих сценаріях.
Моделі AI часто не потребують використання інформації в реальному світі на етапі навчання. Синтетичні дані є цінною альтернативою. Моделі, які навчаються на синтетичних даних, можуть бути так само, якби не точніше ніж інші, тому вам не потрібно турбуватися про проблеми з ефективністю. Просто будьте впевнені, що генерований набір даних нагадує та діє як дані в реальному світі.
Крім того, ви можете очистити існуючі набори даних конфіденційних деталей, таких як імена людей, адреси та фінансову інформацію. Коли такі фактори необхідні для вашої моделі, подумайте про заміну їх фіктивними даними або замінюйте їх між записами.
2. Обмежте доступ до даних про навчання
Після того, як ви склали свій навчальний набір даних, ви повинні обмежити доступ до нього. Дотримуйтесь принципу найменшої привілеї, в якому зазначено, що будь -який користувач чи програма повинен мати можливість отримати доступ лише до того, що необхідно для правильного виконання своєї роботи. Будь -хто, хто не бере участь у навчальному процесі, не повинен бачити або взаємодіяти з базою даних.
Пам’ятайте, що обмеження привілеїв ефективні лише в тому випадку, якщо ви також реалізуєте надійний спосіб перевірити користувачів. Ім’я користувача та пароля недостатньо. Багатофакторна автентифікація (МЗС) є важливою, оскільки вона зупиняється 80% до 90% усіх атак Проти рахунків, але не всі методи МЗС рівні. Текстові та на основі додатків МЗС, як правило, безпечніші, ніж альтернативи на основі електронної пошти.
Обов’язково обмежуйте програмне забезпечення та пристрої, а не лише користувачі. Єдиним інструментом з доступом до навчальної бази даних повинен бути сама модель AI та будь -які програми, якими ви використовуєте для управління цими уявленнями під час навчання.
3. Шифрування та резервне копіювання даних
Шифрування – ще один важливий захисний захід. Хоча не всі алгоритми машинного навчання можуть активно тренуватися за зашифрованими даними, ви можете зашифрувати та розшифрувати їх під час аналізу. Потім ви можете повторно видати його, як тільки закінчите. Альтернативно, загляньте в структури моделі, які можуть аналізувати інформацію під час шифрування.
Зберігання резервних копій ваших навчальних даних у випадку, якщо щось трапиться з цим, важливо. Резервні копії повинні бути в іншому місці, ніж первинна копія. Залежно від того, наскільки важливим є ваш набір даних, можливо, вам доведеться зберегти одну офлайн-резервну копію та одну в хмарі. Не забудьте також шифрувати всі резервні копії.
Що стосується шифрування, обережно виберіть свій метод. Більш високі стандарти завжди є кращими, але ви можете розглянути квантові стійкі алгоритми криптографії як загроза квантових атак зростає.
4. Монітуйте доступ та використання
Навіть якщо ви виконаєте ці інші кроки, кіберзлочинці можуть пробитися через ваші захисні сили. Отже, ви повинні постійно стежити за шаблонами доступу та використання за допомогою даних про навчання AI.
Тут, ймовірно, необхідне автоматизоване рішення для моніторингу, оскільки мало організацій мають рівень персоналу для спостереження за підозрою на годинник. Автоматизація також набагато швидше діяти, коли трапляється щось незвичне, що призводить до $ 2,22 Нижні витрати на порушення даних В середньому від швидших, більш ефективних відповідей.
Запишіть кожен раз, коли хтось або щось доступ до набору даних, просить отримати доступ до нього, змінювати його чи іншим чином взаємодіє з ним. Окрім спостереження за потенційними порушеннями в цій діяльності, регулярно переглядайте його на більші тенденції. Поведінка уповноважених користувачів може змінюватися з часом, що може зажадати зміну дозволів на доступ або поведінковій біометриці, якщо ви використовуєте таку систему.
5. Регулярно переоцініть ризики
Аналогічно, команди AI DEV повинні усвідомити, що кібербезпека-це тривалий процес, а не разовий виправлення. Методи нападу розвиваються швидко – деякі вразливості та загрози можуть проскочити через тріщини, перш ніж ви їх помітили. Єдиний спосіб залишатися в безпеці – це регулярно переоцінювати поставку безпеки.
Принаймні раз на рік перегляньте свою модель AI, її навчальні дані та будь -які випадки безпеки, які вплинули на також. Аудит набору даних та алгоритм, щоб переконатися, що він працює належним чином, і не отруєно, оманливі чи інші шкідливі дані. Адаптуйте контроль безпеки, якщо це необхідно, до будь -якого незвичного, який ви помічаєте.
Тестування проникнення, де експерти з безпеки перевіряють ваші захисні сили, намагаючись пробити їх повз них, також корисно. Все, що не 17% фахівців з кібербезпеки Тест на пера хоча б один раз щорічно, і 72% тих, хто вважає, що вони вважають, що це припинило порушення в їхній організації.
Кібербезпека є ключовою для безпечного розвитку ШІ
Етичний та безпечний розвиток ШІ стає все більш важливим, оскільки потенційні проблеми щодо опори на машинне навчання зростають більш помітними. Забезпечення вашої навчальної бази даних є критичним кроком у задоволенні цього попиту.
Дані про навчання AI занадто цінні та вразливі, щоб ігнорувати його кібер -ризики. Дотримуйтесь цих п’яти кроків сьогодні, щоб зберегти свою модель та її набір даних.