Як синтетичні дані впливають на галюцинації AI?


Хоча синтетичні дані є потужним інструментом, вони можуть лише зменшити галюцинації штучного інтелекту за конкретних обставин. Майже в будь -якому іншому випадку це посилить їх. Чому це? Що означає це явище для тих, хто вклав у нього?

Чим синтетичні дані відрізняються від реальних даних?

Синтетичні дані – це інформація, яка генерується AI. Замість того, щоб зібратися з реальних подій чи спостережень, це створюється штучно. Однак він нагадує оригінал достатньо, щоб створити точний, відповідний вихід. Це все -таки ідея.

Щоб створити штучний набір даних, інженери AI навчають генеративний алгоритм у реальній реляційній базі даних. Коли він буде запропонований, він створює другий набір, який уважно відображає перше, але не містить справжньої інформації. Хоча загальні тенденції та математичні властивості залишаються недоторканими, є достатньо шуму, щоб замаскувати початкові відносини.

Набір даних, що генерується AI, виходить за рамки Дидентифікації, реплікуючи основну логіку взаємозв’язків між полями, а не просто замінити поля на еквівалентні альтернативи. Оскільки він не містить ідентифікаційних деталей, компанії можуть використовувати його для спідниці конфіденційності та регламентів з рських прав. Що ще важливіше, вони можуть вільно ділитися або розповсюджувати його, не боячись порушення.

Однак підроблена інформація частіше використовується для доповнення. Підприємства можуть використовувати його для збагачення або розширення розмірів вибірки, які є занадто малими, роблячи їх достатньо великими для ефективного підготовки систем AI.

Чи мінативні дані мінімізують галюцинації AI?

Іноді алгоритми посилаються на неіснуючі події або роблять логічно неможливі пропозиції. Ці галюцинації часто є безглуздими, оманливими або неправильними. Наприклад, велика мовна модель може написати статтю про домашні леви або стати лікарем у віці 6 років. Однак вони не всі ці крайні, що може визнати їх складними.

Якщо належним чином куратор, штучні дані можуть пом’якшити ці випадки. Відповідна, автентична база даних навчання – це основа для будь -якої моделі, тому, напевно, можна припустити, що чим більше деталей хтось має, тим точніше буде вихід їх моделі. Додатковий набір даних дозволяє масштабувати навіть для нішевих додатків з обмеженою публічною інформацією.

Дебіасінг – ще один спосіб синтетичної бази даних може мінімізувати галюцинації AI. За даними школи менеджменту MIT Sloan, це може допомогти вирішити упередженість тому що це не обмежується початковим розміром вибірки. Професіонали можуть використовувати реалістичні деталі, щоб заповнити прогалини, де вибрані субпопуляції знаходяться під або надмірно представленими.

Як штучні дані погіршують галюцинації

З розумних алгоритмів не може міркувати або контекстуалізувати інформаціювони схильні до галюцинацій. Генеративні моделі – зокрема, підроблені великі мовні моделі – особливо вразливі. У чомусь штучні факти ускладнюють проблему.

Ампліфікація зміщення

Як і люди, AI може навчитися та відтворювати упередження. Якщо штучна база даних завищує деякі групи, недостатньо представляючи інших-що, як правило, легко зробити,-його логіка прийняття рішень буде перекосити, що негативно вплине на точність продукції.

Подібна проблема може виникнути, коли компанії використовують підроблені дані для усунення упередженості в реальному світі, оскільки це може більше не відображати реальність. Наприклад, оскільки Понад 99% раку молочної залози трапляються у жінок, використовуючи додаткову інформацію для врівноваженого представлення, може перекосити діагнози.

Перехресні галюцинації

Міжсекційність – це соціологічна рамка, яка описує, як демографічні показники, такі як вік, стать, раса, професія та перехрестя класу. Він аналізує, як перекриття соціальних ідентичностей груп призводить до унікальних комбінацій дискримінації та привілеїв.

Коли генеративну модель просять створити штучні деталі, засновані на тому, що вона навчалася, вона може генерувати комбінації, які не існували в оригіналі або логічно неможливі.

Еріка Джонсон, професор гендерної та суспільства університету Лінкопінг, працювала з вченим з машинного навчання, щоб продемонструвати це явище. Вони використовували генеративну змагальну мережу Для створення синтетичних версій показників перепису США з 1990 року.

Одразу вони помітили очевидну проблему. У штучній версії були категорії під назвою “Дружина та одинока” та “Ніколи не одружені чоловіки”, обидва з яких були перехресними галюцинаціями.

Без належної курації база даних репліки завжди буде надмірно представляти домінуючі субпопуляції в наборах даних, недостатньо представляючи або навіть виключаючи – недостатньо представлені групи. Випадкові випадки та люди, які переживають, можуть бути повністю ігноровані на користь домінуючих тенденцій.

Колапс моделі

Загадання штучних моделей та тенденцій призводить до колапсу моделі-де виступ алгоритму різко погіршується, оскільки вона стає менш пристосованою до реальних спостережень та подій.

Це явище особливо очевидне в генеративному наступного покоління. Неодноразово використовуючи штучну версію для навчання їх, призводить до самозаписуючого циклу. Одне дослідження виявило, що їх Якість та відкликання знижуються Поступово без достатньої кількості фактичних показників у кожному поколінні.

Завищення

Завищення – це надмірність даних про навчання. Алгоритм спочатку добре працює, але буде галюцинацією, коли вони будуть представлені новими точками даних. Синтетична інформація може ускладнити цю проблему, якщо вона не точно відображає реальність.

Наслідки постійного використання синтетичних даних

Ринок синтетичних даних процвітає. Компанії в цій нішевій галузі зібрав близько 328 мільйонів доларів У 2022 році, порівняно з 53 мільйони доларів у 2020 році – на 518% збільшився лише за 18 місяців. Варто зазначити, що це виключно відомого фінансування, тобто фактична цифра може бути ще вища. Можна з упевненістю сказати, що фірми неймовірно вкладаються в це рішення.

Якщо фірми продовжують використовувати штучну базу даних без належної курації та дебіасування, продуктивність їх моделі поступово знизиться, кидаючи свої інвестиції в ШІ. Результати можуть бути більш серйозними, залежно від програми. Наприклад, в галузі охорони здоров’я, сплеск галюцинацій може призвести до неправильних діагнози або неналежних планів лікування, що призводить до бідніших результатів пацієнта.

Рішення не передбачає повернення до реальних даних

Системи AI потребують мільйонів, якщо не мільярдів, зображень, тексту та відео для навчання, значна частина яких вискоблюється з публічних веб -сайтів і складається у масивних, відкритих наборах даних. На жаль, алгоритми споживають цю інформацію швидше, ніж люди можуть її генерувати. Що відбувається, коли вони все дізнаються?

Лідери бізнесу стурбовані тим, що потрапляють на стіну даних – точку, в якій вся публічна інформація в Інтернеті вичерпана. Це може наближатися швидше, ніж вони думають.

Незважаючи на те, що як кількість простого тексту на середній веб -сторінці загальної повзання, так і кількість користувачів Інтернету зростають на 2% до 4% Щорічно алгоритми не вистачає якісних даних. Лише від 10% до 40% можна використовувати для навчання без шкоди для ефективності. Якщо тенденції триватимуть, загальнодоступна інформаційна акція, створена людиною, може закінчитися до 2026 року.

Імовірність, сектор AI може ще більше потрапити на стіну даних. Генеративний бум AI за останні кілька років посилив напругу через власність інформації та порушення авторських прав. Більше власників веб-сайтів використовують протокол виключення роботів-стандарт, який використовує файл robots.txt для блокування веб-сканерів-або дозволяє зрозуміти, що їхній сайт є поза межами.

У дослідженні 2024 року, опублікованому дослідницькою групою, очолювано MIT, було показано, що колосальний очищений набором даних про загальну сканування (С4)-масштабне корпус веб-сканування-обмеження зростає. Над 28% найактивніших, критичних джерел У С4 було повністю обмежено. Більше того, 45% С4 зараз позначаються поза межами умов обслуговування.

Якщо фірми поважають ці обмеження, свіжість, релевантність та точність публічних фактів у реальному світі зменшаться, змушуючи їх покладатися на штучні бази даних. Вони можуть не мати великого вибору, якщо суди визнають, що будь -яка альтернатива – порушення авторських прав.

Майбутнє синтетичних даних та галюцинації AI

Оскільки закони про авторські права модернізують, а більше власників веб -сайтів приховують свій вміст від веб -сканерів, генерація штучних наборів даних стане все більш популярною. Організації повинні підготуватися до загрози галюцинацій.



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *