Нове дослідження Від дослідників Мюнхена ЛМУ, Мюнхенського центру машинного навчання та Adobe Research виявили слабкість у Мовні моделі AI: Вони намагаються зрозуміти довгі документи способами, які можуть вас здивувати. Висновки дослідницької групи показують, що навіть найдосконаліші моделі AI мають проблеми з підключенням інформації, коли вони не можуть покластися на просту відповідність слів.
Прихована проблема з навичками читання AI
Малюнок, що намагається знайти конкретну деталь у довгому дослідницькому документі. Ви можете пережити це, роблячи розумові зв’язки між різними розділами, щоб зібрати необхідну інформацію. Виявляється, багато моделей AI взагалі не працюють. Натомість вони часто значною мірою покладаються на пошук точних матчів слів, подібно до використання Ctrl+F на вашому комп’ютері.
Дослідницька група розробила новий орієнтир під назвою Nolima (без буквального узгодження) для тестування різних моделей AI. Результати показали, що коли моделі AI мають справу з текстами довше 2000 слів, їх продуктивність різко падає. До того часу, як вони досягають 32 000 слів – приблизно довжиною короткої книги – більшість моделей виступають у половині своїх звичних можливостей. Це включало тестування основних моделей, таких як GPT-4o, Близнюки 1,5 Proі Llama 3.3 70b.
Розглянемо медичного дослідника, який використовує AI, для аналізу записів пацієнтів або юридичної групи з використанням AI для перегляду документів про справи. Якщо AI не вистачає вирішальних з’єднань, оскільки відповідна інформація використовує різні слова, ніж пошуковий запит, наслідки можуть бути суттєвими.
Чому відповідність слів недостатньо
Поточні моделі AI обробляють текст, використовуючи щось, що називається механізмом уваги. Ця система допомагає ШІ зосередитись на різних частинах тексту, щоб зрозуміти взаємозв’язки між словами та ідеями. Працюючи з коротшими текстами, це працює досить добре. Однак дослідження показує, що цей механізм переповнюється, оскільки тексти стають довшими, особливо коли він не може покладатися на точні матчі слів.
Тест Nolima виявив це обмеження, задаючи моделі AI, коли відповіді вимагали розуміння контексту, а не знаходження відповідних слів. Результати розповідали. У той час як моделі добре працювали з короткими текстами, їх здатність зробити ці з’єднання значно зменшилася в міру збільшення довжини тексту. Навіть спеціалізовані моделі, розроблені для міркувальних завдань, набрали нижче 50% точності при роботі з довшими документами.
Без милиць відповідності слів моделі AI намагалися:
- Підключіть пов’язані концепції, які використовують різну термінологію
- Дотримуйтесь багатоступеневих шляхів міркувань
- Знайдіть відповідну інформацію, коли вона з’явилася після ключового контексту
- Ігноруйте оманливі матчі слів у нерелевантних розділах
Цифри розповідають історію
Результати досліджень малюють чітку картину того, як моделі AI обробляють довші тексти. GPT-4o показав найсильнішу ефективність, підтримуючи ефективність до приблизно 8000 жетонів (приблизно 6000 слів). Однак навіть цей топ -виконавець показав значне зниження з більш тривалими текстами. Більшість інших моделей, включаючи Gemini 1.5 Pro та Llama 3,3 70b, досвідчені показники різких показників від 2000 до 8000 жетонів.
Зниження продуктивності стало ще більш вираженим, коли завдання вимагали декількох кроків міркувань. Наприклад, якщо модель, необхідна для встановлення двох логічних зв’язків – наприклад, розуміння того, що персонаж жив біля орієнтира, і що орієнтир був у певному місті – рівень успішності значно знизився. Дослідження показало, що цей тип багатоетапних міркувань став особливо складним у текстах понад 16 000 жетонів, навіть коли використовується методи, розроблені для поліпшення міркувань, таких як Ланцюг, що спонукає.
Що робить ці висновки особливо примітними, це те, що вони кидають виклик претензіям на здатність моделей AI впоратися з довгими контекстами. Незважаючи на те, що багато моделей рекламують підтримку широкого контексту Windows, орієнтир Nolima показує, що ефективне розуміння падає задовго до досягнення цих теоретичних меж.
![](https://www.unite.ai/wp-content/uploads/2025/02/nolima-benchmark-results.jpg)
Джерело: Modarressi та ін.
Коли AI пропускає ліс для дерев
Ці обмеження мають серйозні наслідки для того, як ми використовуємо AI у реальних програмах. Розглянемо юридичну систему AI, яка шукає прет -практику. Це може пропустити відповідні прецеденти просто тому, що вони використовують іншу термінологію, ніж пошуковий запит. Натомість система могла б зосередитись на менш актуальних випадках, які трапляються більше слів із пошуковими термінами.
Вплив на аналіз пошуку та документів особливо стосується. Поточні системи пошуку, що працюють на AI, часто покладаються на техніку Покоління з пошуком (RAG). Навіть коли ці системи успішно отримують документ, що містить потрібну інформацію, AI може не визнати його актуальністю, якщо формулювання відрізняється від запиту. Натомість ШІ може тяжіти до менш відповідних документів, які поділяють подібність на рівні поверхні з пошуковими термінами.
Для користувачів AI ці висновки пропонують кілька важливих міркувань:
Спочаткукоротші запити та документи, ймовірно, дадуть більш надійні результати. Працюючи з більш тривалими текстами, розбиття їх на менші, цілеспрямовані сегменти можуть допомогти підтримувати ефективність ШІ.
ДругийКористувачі повинні бути особливо обережними, просячи AI встановити з’єднання в різних частинах довгого документа. Дослідження показує, що моделі AI найбільше борються, коли їм потрібно зібрати інформацію з різних розділів, особливо коли зв’язок не очевидний через спільну лексику.
Нарештіці обмеження підкреслюють постійне значення людського нагляду. Хоча AI може бути потужним інструментом для обробки та аналізу тексту, на нього не слід покладатися як єдиний засіб визначення важливих зв’язків у довгих або складних документах.
Отримані результати служать нагадуванням про те, що, незважаючи на швидкі досягнення в технології AI, ці системи все ще обробляють інформацію дуже по -різному від людини. Розуміння цих обмежень має вирішальне значення для ефективного використання інструментів AI та знання, коли людське судження залишається важливим.
Що наступне
Розуміння обмежень поточної здатності моделей AI до обробки довгих текстів відкриває важливі питання щодо майбутнього розвитку ШІ. Дослідження орієнтиру Nolima виявило, що наші поточні підходи до обробки тексту AI можуть потребувати значного вдосконалення, особливо в тому, як моделі обробляють інформацію в більш тривалі уривках.
Поточні рішення показали лише частковий успіх. Ланцюг, що спонукає, що спонукає моделі AI розбити свої міркування на кроки, допомагає дещо підвищити продуктивність. Наприклад, при використанні цієї методики LLAMA 3.3 70B виявляла кращу здатність обробляти більш тривалі контексти. Однак такий підхід все ще не вистачає, коли маємо справу з текстами понад 16 000 жетонів, що дозволяє припустити, що нам потрібні більше фундаментальних рішень.
Механізм уваги, який утворює основу того, як поточні моделі AI обробляють текст, потребує переосмислення. Подумайте про це, як намагатися провести розмову в переповненій кімнаті – чим довше розмова стає, тим важче стане відстежувати всі важливі моменти, про які згадувалося раніше. Наші нинішні моделі AI стикаються з подібною проблемою, але в значно більшому масштабі.
Дивлячись на майбутнє, дослідники вивчають кілька перспективних напрямків. Один з підходів передбачає розробку нових способів, щоб AI організовувати та визначити інформацію в довгих текстах, виходячи за межі простого зіставлення слів, щоб зрозуміти більш глибокі концептуальні зв’язки. Це може працювати більше, як люди створюють ментальні карти інформації, що з’єднують ідеї, засновані на сенсі, а не просто спільного словника.
Інша сфера розвитку зосереджена на вдосконаленні того, як моделі AI обробляють те, що дослідники називають «латентним хмелем» – логічними кроками, необхідними для підключення різних інформаційних фрагментів. Поточні моделі борються з цими з’єднаннями, особливо в довших текстах, але нові архітектури можуть допомогти подолати цю прогалину.
Для тих, хто працює з інструментами AI сьогодні, ці висновки пропонують кілька практичних підходів:
Подумайте про те, щоб зламати довші документи на змістовні сегменти під час роботи з ШІ. Це допомагає створити логічні розділи, які зберігають важливий контекст. Наприклад, якщо проаналізувати дослідницьку роботу, ви можете зберегти розділи методології та результатів разом, оскільки вони часто містять пов’язану інформацію.
Просивши AI проаналізувати довші тексти, будьте конкретні щодо з’єднань, які ви хочете зробити. Замість того, щоб задавати широкі запитання, направляйте ШІ до конкретних стосунків, які ви зацікавлені в дослідженні. Це допомагає компенсувати поточні обмеження моделі у здійсненні цих з’єднань самостійно.
Мабуть, найголовніше, підтримуйте реалістичні очікування щодо можливостей AI з довгими текстами. Незважаючи на те, що ці інструменти можуть бути неймовірно корисними для багатьох завдань, їх не слід розглядати як повну заміну для людського аналізу складних документів. Здатність людини підтримувати контекст та здійснювати концептуальні зв’язки у довгих текстах залишається вищими за поточні можливості AI.
Дорога вперед для розвитку ШІ в цій місцевості є як складною, так і захоплюючою. Як ми краще розуміємо ці обмеження, ми можемо працювати над системами AI, які справді розуміють довгі тексти, а не просто обробляти їх. До цього часу, використовуючи AI, означає роботу з її поточними обмеженнями, оцінюючи свої сильні сторони.