Як ШІ робить розпізнавання мови жестів точнішим, ніж будь-коли

Зміст

Коли ми думаємо про подолання комунікаційних бар’єрів, ми часто зосереджуємося на програми для мовного перекладу або голосові помічники. Але для мільйонів людей, які використовують мову жестів, ці інструменти не повністю подолали розрив. Мова жестів – це не лише рухи рук – це багата, складна форма спілкування, яка включає міміку та мову тіла, причому кожен елемент має вирішальне значення.

Ось що робить це особливо складним: на відміну від розмовних мов, які в основному відрізняються лексикою та граматикою, жестові мови в усьому світі принципово відрізняються тим, як вони передають значення. Американська жестова мова (ASL), наприклад, має власну унікальну граматику та синтаксис, які не відповідають розмовній англійській мові.

Ця складність означає, що створення технології для розпізнавання та перекладу жестової мови в реальному часі вимагає розуміння всієї мовної системи в русі.

Новий підхід до розпізнавання

Саме тут команда коледжу інженерії та комп’ютерних наук Флоридського Атлантичного університету (FAU) вирішила застосувати новий підхід. Замість того, щоб відразу впоратися з усією складністю мови жестів, вони зосередилися на першому важливому кроці: розпізнанні жестів алфавіту ASL із безпрецедентною точністю за допомогою ШІ.

Подумайте про це як про навчання комп’ютера читати рукописний текст, але в трьох вимірах і в русі. Команда створила щось надзвичайне: набір даних із 29 820 статичних зображень, що демонструють жести рук ASL. Але вони не просто збирали малюнки. Вони позначили кожне зображення 21 ключовою точкою на руці, створивши детальну карту того, як руки рухаються та утворюють різні знаки.

Доктор Бадер Альшаріф, який очолив це дослідження як доктор філософії. кандидат, пояснює: «Цей метод не досліджувався в попередніх дослідженнях, що робить його новим і перспективним напрямком для майбутніх досягнень».

Порушення технології

Давайте зануримося в поєднання технологій, завдяки яким ця система розпізнавання мови жестів працює.

MediaPipe і YOLOv8

Магія відбувається завдяки бездоганній інтеграції двох потужних інструментів: MediaPipe і YOLOv8. Думайте про MediaPipe як про досвідченого наглядача рук – досвідченого перекладача жестової мови, який може відстежувати кожен тонкий рух пальця та положення руки. Дослідницька група обрала MediaPipe спеціально за його виняткову здатність забезпечувати точне відстеження орієнтирів руки, визначаючи 21 точну точку на кожній руці, як ми вже згадували вище.

Але відстеження недостатньо – нам потрібно зрозуміти, що означають ці рухи. Саме тут на допомогу приходить YOLOv8. YOLOv8 — експерт із розпізнавання образів, який бере всі ті відстежені точки та визначає, яку букву чи жест вони представляють. Дослідження показує, що коли YOLOv8 обробляє зображення, він ділить його на сітку розміром S × S, причому кожна клітинка сітки відповідає за виявлення об’єктів (у цьому випадку жестів рук) у її межах.

Альшаріф та інші, Franklin Open (2024)

Як система насправді працює

Процес більш складний, ніж може здатися на перший погляд.

Ось що відбувається за лаштунками:

Етап виявлення руки

Коли ви робите знак, MediaPipe спочатку визначає вашу руку в рамці та наносить на карту ці 21 ключову точку. Це не просто випадкові точки – вони відповідають певним суглобам і орієнтирам на вашій руці, від кінчиків пальців до основи долоні.

Просторовий аналіз

Потім YOLOv8 бере цю інформацію та аналізує її в режимі реального часу. Для кожної клітинки сітки на зображенні він передбачає:

Імовірність наявності жесту рукою
Точні координати розташування жесту
Оцінка достовірності його прогнозу

Класифікація

Система використовує те, що називається «прогнозуванням обмежувальної рамки» — уявіть, що ви малюєте ідеальний прямокутник навколо свого жесту. YOLOv8 обчислює п’ять важливих значень для кожного поля: координати x і y для центру, ширину, висоту та оцінку достовірності.

Альшаріф та інші, Franklin Open (2024)

Чому ця комбінація працює так добре

Дослідницька група виявила, що, об’єднавши ці технології, вони створили щось більше, ніж сума частин. Точне відстеження MediaPipe у поєднанні з розширеним виявленням об’єктів YOLOv8 дає надзвичайно точні результати – ми говоримо про 98% точності та 99% оцінки F1.

Що робить це особливо вражаючим, так це те, як система справляється зі складністю мови жестів. Деякі ознаки можуть виглядати дуже схожими на ненавчене око, але система може помітити тонкі відмінності.

Рекордні результати

Коли дослідники розробляють нову технологію, завжди виникає велике питання: «Наскільки добре вона насправді працює?» Для цієї системи розпізнавання мови жестів результати вражаючі.

Команда FAU провела ретельне тестування своєї системи, і ось що вони виявили:

Система правильно визначає знаки в 98% випадків
Він вловлює 98% усіх знаків, зроблених перед ним
Загальна оцінка продуктивності досягає вражаючих 99%

«Результати нашого дослідження демонструють здатність нашої моделі точно виявляти та класифікувати жести американською жестовою мовою з дуже малою кількістю помилок», — пояснює Альшаріф.

Система добре працює в повсякденних ситуаціях – різне освітлення, різні позиції рук і навіть коли різні люди підписуються.

Цей прорив розширює межі того, що можливо у розпізнаванні мови жестів. Попередні системи мали проблеми з точністю, але, поєднавши відстеження руки MediaPipe із можливостями виявлення YOLOv8, дослідницька група створила щось особливе.

«Успіх цієї моделі значною мірою пояснюється ретельною інтеграцією передачі навчання, ретельному створенню набору даних і точному налаштуванню», — говорить Мохаммад Ільяс, один із співавторів дослідження. Така увага до деталей окупилася чудовою продуктивністю системи.

Що це означає для спілкування

Успіх цієї системи відкриває захоплюючі можливості для того, щоб зробити спілкування більш доступним і інклюзивним.

Команда не зупиняється лише на розпізнаванні букв. Наступне важливе завдання — навчити систему розуміти ще ширший спектр форм рук і жестів. Подумайте про ті моменти, коли знаки виглядають майже однаково – як літери «М» і «Н» на мові жестів. Дослідники працюють над тим, щоб допомогти своїй системі ще краще вловити ці тонкі відмінності. Як каже доктор Альшаріф: «Важливо те, що результати цього дослідження підкреслюють не лише надійність системи, але й потенціал її використання в практичних програмах у режимі реального часу».

Зараз команда зосереджена на:

Налагодження безперебійної роботи системи на звичайних пристроях
Робить це досить швидко для реальних розмов
Забезпечення надійної роботи в будь-якому середовищі

Декан Стелла Баталама з Коледжу інженерії та комп’ютерних наук FAU поділяє ширше бачення: «Покращуючи розпізнавання американської мови жестів, ця робота сприяє створенню інструментів, які можуть покращити спілкування для спільноти глухих і людей із вадами слуху».

Уявіть собі, що ви входите в кабінет лікаря або відвідуєте урок, де ця технологія миттєво долає комунікаційні прогалини. Це справжня мета – зробити щоденну взаємодію більш плавною та природною для всіх учасників. Це створення технології, яка насправді допомагає людям спілкуватися. У освіті, охороні здоров’я чи повсякденних розмовах ця система є кроком до світу, де бар’єри спілкування дедалі зменшуються.

Джерело