HeAR навчений на мільйонах людських аудіозаписів
Дослідники Google за допомогою автоматизованого процесу вилучили понад 300 млн коротких звукових фрагментів кашлю, дихання, прокашлювання горла та інших людських звуків із загальнодоступних відео YouTube, пише Nature.
Кожен запис був перетворений на візуальне представлення звуку, яке називається спектрограмою. Потім дослідники заблокували сегменти спектрограм, щоб допомогти моделі навчитися передбачати відсутні частини. Це схоже на те, як велика мовна модель, що лежить в основі чат-бота ChatGPT, навчилася передбачати наступне слово в реченні після тренування на незліченних прикладах людського тексту. Використовуючи цей метод, дослідники створили те, що вони називають базовою моделлю, яку, за їхніми словами, можна адаптувати для багатьох завдань.
Команда Google адаптувала HeAR для виявлення COVID-19, туберкульозу та таких ознак, як те, чи курить людина. Оскільки модель була навчена на такому широкому діапазоні людських звуків, для її точного налаштування дослідникам потрібно було лише надати їй дуже обмежені набори даних, позначені цими хворобами та характеристиками.
Дослідники кажуть, що поки що зарано говорити про те, чи стане HeAR комерційним продуктом. Наразі планується надати іншим вченим доступ до моделі, щоб вони могли використовувати її у власних дослідженнях.