ШІ змінює світ, від трансформації охорони здоров’я до реформування освіти. Він долає давні виклики та відкриває можливості, про які ми ніколи не думали. Дані знаходяться в центрі цієї революції — це паливо, яке живить кожну модель ШІ. Це те, що дозволяє цим системам робити прогнози, знаходити закономірності та надавати рішення, які впливають на наше повсякденне життя.
Але, незважаючи на те, що ця велика кількість даних стимулює інновації, домінування однорідних наборів даних, які часто називають монокультурами даних, створює значні ризики для різноманітності та креативності в розробці ШІ. Це схоже на сільськогосподарську монокультуру, де висаджування однієї культури на великих полях робить екосистему крихкою та вразливою до шкідників і хвороб. В штучному інтелекті використання однорідних наборів даних створює жорсткі, упереджені та часто ненадійні моделі.
У цій статті розглядається концепція монокультур даних, досліджується, що це таке, чому вони зберігаються, ризики, які вони несуть, і кроки, які ми можемо вжити, щоб створити розумніші, справедливіші та інклюзивніші системи ШІ.
Розуміння монокультур даних
Монокультура даних виникає, коли один набір даних або вузький набір джерел даних домінує в навчанні систем ШІ. Розпізнавання облич є добре задокументованим прикладом монокультури даних у ШІ. Дослідження з медіа-лабораторії Массачусетського технологічного інституту виявили, що моделям, які тренувалися переважно на зображеннях людей зі світлою шкірою, важко виглядати обличчя з темною шкірою. Рівень помилок для темношкірих жінок досяг 34,7% порівняно з лише 0,8% для світлошкірих чоловіків. Ці результати підкреслюють вплив тренувальних даних, які не включали достатньої різноманітності тонів шкіри.
Подібні проблеми виникають і в інших сферах. Наприклад, великі мовні моделі (LLM), такі як OpenAI GPT і Google Bard, навчаються на наборах даних, які значною мірою покладаються на англомовний вміст, отриманий переважно із західного контексту. Відсутність різноманітності робить їх менш точними в розумінні мовних і культурних нюансів інших частин світу. Такі країни, як Індія розвиваються LLM, які краще відображають місцеві мови та культурні цінності.
Ця проблема може бути критичною, особливо в таких сферах, як охорона здоров’я. Наприклад, медичний діагностичний інструмент, навчений переважно на даних європейського населення, може погано працювати в регіонах з різними генетичними факторами та факторами навколишнього середовища.
Звідки беруться монокультури даних
Монокультури даних в ШІ виникають з різних причин. Такі популярні набори даних, як ImageNet і COCO масивні, легкодоступні та широко використовувані. Але вони часто відображають вузький, західноцентричний погляд. Збір різноманітних даних недешевий, тому багато невеликих організацій покладаються на ці наявні набори даних. Ця залежність підсилює відсутність різноманітності.
Стандартизація також є ключовим фактором. Дослідники часто використовують широко визнані набори даних для порівняння своїх результатів, ненавмисно перешкоджаючи дослідженню альтернативних джерел. Ця тенденція створює цикл зворотного зв’язку, коли всі оптимізують для тих самих контрольних показників замість того, щоб вирішувати реальні проблеми.
Іноді ці проблеми виникають через недогляд. Творці набору даних можуть ненавмисно пропустити певні групи, мови чи регіони. Наприклад, ранні версії голосових помічників, таких як Siri, погано справлялися з незахідними акцентами. Причиною було те, що розробники включили недостатньо даних із цих регіонів. Ці недогляди створюють інструменти, які не відповідають потребам глобальної аудиторії.
Чому це важливо
Оскільки штучний інтелект відіграє більш помітну роль у прийнятті рішень, монокультури даних можуть мати реальні наслідки. Моделі штучного інтелекту можуть підсилити дискримінацію, коли вони успадковують упередження від своїх навчальних даних. А алгоритм найму навчені на основі даних з галузей, де домінують чоловіки, можуть ненавмисно надавати перевагу кандидатам-чоловікам, виключаючи кваліфікованих жінок із розгляду.
Культурна репрезентація є ще одним викликом. Такі системи рекомендацій, як Netflix і Spotify, часто прихильність Західні переваги, відсторонення контенту від інших культур. Ця дискримінація обмежує досвід користувача та стримує інновації, зберігаючи ідеї вузькими та повторюваними.
Системи штучного інтелекту також можуть стати крихкими, коли навчаються на обмежених даних. Під час пандемії COVID-19 медичні моделі тренувалися на даних до пандемії не вдалося адаптуватися до складнощів глобальної кризи охорони здоров’я. Ця жорсткість може зробити системи штучного інтелекту менш корисними, коли вони стикаються з несподіваними ситуаціями.
Монокультура даних також може призвести до етичних і правових проблем. Такі компанії, як Twitter і Apple, зіткнулися з негативною реакцією громадськості через упереджені алгоритми. Інструмент Twitter для кадрування зображень був звинувачений у расові упередженнятоді як кредитний алгоритм Apple Card нібито пропонував нижчі обмеження для жінок. Ці суперечки підривають довіру до продуктів і викликають питання про підзвітність у розробці ШІ.
Як виправити монокультури даних
Вирішення проблеми монокультур даних вимагає розширення діапазону даних, які використовуються для навчання систем ШІ. Це завдання вимагає розробки інструментів і технологій, які полегшують збір даних із різних джерел. Такі проекти, як Загальний голос Mozillaнаприклад, збирати зразки голосів людей з усього світу, створюючи більш багатий набір даних із різними акцентами та мовами — так само такі ініціативи, як «Дані ЮНЕСКО для штучного інтелекту», зосереджуються на включенні недостатньо представлених спільнот.
Встановлення етичних принципів є ще одним важливим кроком. Такі рамки, як Торонтська декларація сприяти прозорості та інклюзивності, щоб гарантувати, що системи ШІ є справедливими за дизайном. Сувора політика управління даними, натхненна GDPR правила також можуть мати велике значення. Вони вимагають чіткої документації джерел даних і зобов’язують організації відповідати за забезпечення різноманітності.
Платформи з відкритим кодом також можуть змінити ситуацію. Наприклад, обіймати обличчяРепозиторій наборів даних дозволяє дослідникам отримувати доступ до різноманітних даних і обмінюватися ними. Ця модель співпраці сприяє розвитку екосистеми ШІ, зменшуючи залежність від вузьких наборів даних. Прозорість також відіграє значну роль. Використання пояснюваний ШІ системи та впровадження регулярних перевірок може допомогти виявити та виправити упередження. Це пояснення є життєво важливим для того, щоб моделі залишалися справедливими та адаптованими.
Створення різноманітних команд може бути найвпливовішим і найпростішим кроком. Команди з різним досвідом краще виявляють сліпі плями в даних і проектують системи, які працюють для ширшого кола користувачів. Інклюзивні команди забезпечують кращі результати, роблячи ШІ яскравішим і справедливішим.
Підсумок
ШІ має неймовірний потенціал, але його ефективність залежить від якості даних. Монокультури даних обмежують цей потенціал, створюючи упереджені, негнучкі системи, відірвані від потреб реального світу. Щоб подолати ці виклики, розробники, уряди та спільноти повинні співпрацювати, щоб урізноманітнити набори даних, запровадити етичні практики та сприяти інклюзивним командам.
Безпосередньо вирішуючи ці проблеми, ми можемо створити більш розумний і справедливий штучний інтелект, який відображатиме різноманіття світу, якому він прагне служити.