LLMS не міркують – вони просто дуже добре планують планувати


Великі мовні моделі (LLM), як Openai’s O3, GEMINI 2.0 Googleі DeepSeek’s R1 показали неабиякий прогрес у вирішенні складних проблем, генеруванні тексту, подібного до людини, і навіть з точністю написання коду. Ці вдосконалені LLM часто називають як “Моделі міркувань” за їх чудові здібності аналізувати та вирішувати складні проблеми. Але робіть ці моделі насправді розумабо вони просто винятково хоро планування? Ця відмінність є тонкою, але глибокою, і це має великі наслідки для того, як ми розуміємо можливості та обмеження LLM.

Щоб зрозуміти цю відмінність, порівняємо два сценарії:

  • Міркування: Детектив, що розслідує злочин, повинен зібрати суперечливі докази, висувати, які з них є помилковими, і зробити висновок, заснований на обмежених доказах. Цей процес передбачає висновок, вирішення протиріччя та абстрактне мислення.
  • Планування: Шахова гравця, що обчислює найкращу послідовність рухів, щоб перевірити свого опонента.

Незважаючи на те, що обидва процеси включають кілька кроків, детектив бере участь у глибоких міркуванні, щоб зробити висновки, оцінювати суперечності та застосовувати загальні принципи до певного випадку. З іншого боку, шаховий гравець в першу чергу займається плануванням, вибираючи оптимальну послідовність рухів, щоб виграти гру. Як ми побачимо, LLMS функціонує набагато більше схожий на шахи, ніж детектив.

Розуміння різниці: міркування проти планування

Щоб усвідомити, чому LLM добре планують, а не міркування, важливо спочатку зрозуміти різницю між обома термінами. Обґрунтування – це процес отримання нових висновків із заданих приміщень за допомогою логіки та висновку. Він передбачає виявлення та виправлення невідповідностей, створення нових розумінь, а не просто надання інформації, прийняття рішень у неоднозначних ситуаціях та залучення до причинного розуміння та контрфактичного мислення на кшталт “Що робити?” сценарії.

З іншого боку, планування зосереджується на структуруванні послідовності дій для досягнення конкретної мети. Він покладається на розбиття складних завдань на менші кроки, слідуючи відомими стратегіями вирішення проблем, адаптації раніше вивчених моделей до подібних проблем та виконання структурованих послідовностей, а не для отримання нових розумінь. Хоча як міркування, так і планування передбачають покрокову обробку, міркування вимагає більш глибокої абстракції та висновку, тоді як планування дотримується встановлених процедур, не генеруючи принципово нові знання.

Як LLMS підходить до “міркувань”

Сучасні LLMS, такі як O3 та DeepSeek-R1, оснащені технікою, відомою як Ланцюг (ліжечко) міркування, щоб покращити свої здібності до вирішення проблем. Цей метод заохочує моделі розбити проблеми на проміжні кроки, імітуючи спосіб логічно людей через проблему. Щоб побачити, як це працює, розгляньте просту математичну проблему:

Якщо маин продає яблука по 2 долари кожен, але пропонує знижку в розмірі 1 долара за яблуко, якщо ви купуєте більше 5 яблук, скільки коштуватиме 7 яблук?

Типовий LLM, що використовує ліжко, може вирішити це так:

  1. Визначте звичайну ціну: 7 * $ 2 = 14 доларів.
  2. Визначте, що знижка застосовується (з 7> 5).
  3. Обчисліть знижку: 7 * $ 1 = $ 7.
  4. Відніміть знижку від загальної кількості: $ 14 – $ 7 = $ 7.

Явно викладаючи послідовність кроків, модель мінімізує шанс помилок, що виникають, намагаючись передбачити відповідь за один раз. Незважаючи на те, що цей покроковий поломка робить LLM схожими на міркування, це, по суті, є формою структурованого вирішення проблем, як і дотримання покрокового рецепту. З іншого боку, справжній процес міркувань може визнати загальне правило: Якщо знижка застосовується понад 5 яблук, то кожна коштує 1 долар. Людина може негайно зробити висновок про таке правило, але LLM не може, оскільки він просто дотримується структурованої послідовності розрахунків.

Чому ланцюг-планує, а не міркування

В той час Ланцюг (ліжечко) покращив продуктивність LLMS щодо логічних завдань, таких як проблеми з математичним словом та виклики кодування, це не передбачає справжніх логічних міркувань. Це тому, що COT слідкує за процедурними знаннями, покладаючись на структуровані кроки, а не генерування нових розумінь. У ньому не вистачає справжнього розуміння причинності та абстрактних взаємозв’язків, тобто модель не займається контрфактичним мисленням і не розглядає гіпотетичні ситуації, які потребують інтуїції, крім даних, що спостерігаються. Крім того, КОТ не може принципово змінити свій підхід за рамки закономірностей, на яких він навчався, обмежуючи свою здатність творчо міркувати або адаптуватися в незнайомих сценаріях.

Що знадобиться, щоб LLMS стала справжніми міркувальними машинами?

Отже, що LLM потрібно по -справжньому міркувати, як люди? Ось деякі ключові сфери, де вони потребують вдосконалення та потенційних підходів для цього:

  1. Символічне розуміння: Людина маніпулюючи абстрактними символами та стосунками. Однак, LLMS не вистачає справжнього символічного механізму міркувань. Інтеграція символічних AI або них моделей, що поєднують нейронні мережі з формальними логічними системами, може посилити їх здатність брати участь у справжніх міркуваннях.
  2. Причинно -наслідковий висновок: Справжнє міркування вимагає розуміння причини та наслідків, а не лише статистичних кореляцій. Модель, яка причини повинна зробити висновок про основні принципи з даних, а не просто прогнозувати наступний жетон. Дослідження причинного , які чітко моделі спричиняють відносини, можуть допомогти LLMS перейти від планування до міркувань.
  3. Саморефлексія і Метакогнат: Люди постійно оцінюють власні процеси мислення, запитуючи “Чи має цей висновок?” З іншого боку, LLM не мають механізму саморефлексії. Будівництво моделей, які можуть критично оцінити власні результати, було б кроком до справжніх міркувань.
  4. Здоровий глузд і інтуїція: Незважаючи на те, що LLM мають доступ до величезної кількості знань, вони часто борються з основними міркуваннями з здоровим розумом. Це трапляється тому, що вони не мають досвіду в реальному світі, щоб формувати свою інтуїцію, і вони не можуть легко розпізнати безглуздість, які люди підхопили б відразу. Їм також не вистачає способу залучити динаміку в реальному світі до прийняття рішень. Один із способів вдосконалення цього може бути шляхом побудови моделі із загальним глуздом ом, що може включати інтеграцію сенсорного введення в реальному світі або використання графіків знань, щоб допомогти моделі краще зрозуміти світ так, як це роблять люди.
  5. Контрфактичне мислення: Людські міркування часто передбачають запитання: “Що робити, якщо все відрізняється?” LLMS бореться з подібними сценаріями “що робити”, оскільки вони обмежені даними, на яких вони навчалися. Щоб моделі думали більше, як люди в цих ситуаціях, їм потрібно буде імітувати гіпотетичні сценарії та зрозуміти, як зміни змінних можуть впливати на результати. Їм також знадобиться спосіб перевірити різні можливості та придумати нові розуміння, а не просто прогнозувати, виходячи з того, що вони вже бачили. Без цих здібностей LLM не може по -справжньому уявити альтернативні ф’ючерси – вони можуть працювати лише з тим, що вони дізналися.

Висновок

Незважаючи на те, що LLMS може здатися, що вони насправді покладаються на методи планування для вирішення складних проблем. Незалежно від вирішення математичної проблеми чи залучення до логічного відрахування, вони в першу чергу організовують відомі зразки структуровано, а не глибоко розуміють принципи, що стоять за ними. Ця відмінність має вирішальне значення в дослідженні ШІ, оскільки якщо ми помиляємося складне планування справжніх міркувань, ми ризикуємо переоцінити справжні можливості AI.

Дорога до справжніх міркувань AI потребує фундаментальних досягнень поза прогнозуванням та ймовірнісним плануванням. Він вимагатиме проривів у символічній логіці, причинному розумінні та метапізнання. До цього часу LLM залишатимуться потужними інструментами для структурованого вирішення проблем, але вони не по-справжньому думають так, як це роблять люди.



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *