Учені з Nvidia та некомерційної біомедичної дослідницької організації в Пало-Альто Arc Institute 19 лютого представили модель штучного інтелекту Evo 2, яка може не лише ідентифікувати хвороботворні мутації в генах людини, а й створювати нові геноми.
Базова ШІ-модель Evo 2, призначена для глибшого розуміння біологічного коду, була навчена на основі ДНК понад 100 000 видів та форм життя в різних областях біології, пише AIwire.

Попередник Evo 2 — модель Evo 1 — була розроблена на одноклітинних геномах. Нова модель базується на попередньої, але навчена на більшій кількості даних. Для тренування Evo 2 використали більш ніж 9,3 трлн нуклеотидів — будівельних блоків, з яких складається ДНК або РНК — із понад 128 000 цілих геномів, а також метагеномних даних. На додаток до розширеної колекції геномів бактерій, архей і фагів, Evo 2 містить інформацію про людей, рослини та інші одноклітинні та багатоклітинні види еукаріотичної сфери життя.
Модель тренувалась протягом кількох місяців на платформі NVIDIA DGX Cloud AI через AWS, використовуючи понад 2000 графічних процесорів NVIDIA H100 за підтримки дослідників та інженерів компанії.

Патрік Хсу, співзасновник Arc Institute, Arc Core Investigator, доцент кафедри біоінженерії та науковий співробітник факультету Deb в Каліфорнійському університеті в Берклі та співавтор препринта Evo 2 наголосив, що модель дала можливість «машинам читати, писати та мислити мовою нуклеотидів».
За його словами, Evo 2 має загальне розуміння дерева життя, яке ефективне в таких завданнях, як прогнозування хвороботворних мутацій і розробка потенційного коду для штучного життя. Науковці прогнозують, що нова ШІ-модель стане в пригоді для генетичного аналізу та розробки нових біологічних методів лікування.
Науковці зі Стенфордського університету, Каліфорнійського університету в Берклі та Каліфорнійського університету в Сан-Франциско у співпраці з колегами з Nvidia наголошують на інтерпретації. Код Evo 2 виклали у загальний доступ на GitHub Інституту Arc, а також інтегрували у структуру Nvidia BioNeMo. Навчальні дані, код і ваги моделі Evo 2, які випускають вчені, за їхніми словами робить її найбільшою повністю відкритою моделлю штучного інтелекту такого типу.
Evo 2 вже показала точність понад 90% у визначенні того, які мутації в гені BRCA1 (ген, пов’язаний з раком молочної залози) є доброякісними або потенційно патогенними. Це потенційно допоможе зменшити вартість та трудомісткість експериментів та оптимізувати генетичні дослідження.