Від O3 Openai до R1 DeepSeek: Як імітоване мислення змушує ЛЛМ думати глибше

Зміст

Великі мовні моделі (LLM) значно розвинулися. Те, що розпочалося як прості інструменти для генерації тексту та перекладу, зараз використовується в дослідженні, прийнятті рішень та складному вирішенні проблем. Ключовим фактором у цій зміні є зростаюча здатність LLM більш систематично мислити шляхом руйнування проблем, оцінюючи декілька можливостей та динамічно вдосконалюючи їх відповіді. Замість того, щоб просто прогнозувати наступне слово в послідовності, ці моделі тепер можуть виконувати структуровані міркування, що робить їх більш ефективними у обробці складних завдань. Провідні моделі, як Openai’s O3, GEMINI’s Googleі DeepSeek’s R1 Інтегруйте ці можливості для підвищення їх здатності до більш ефективного обробки та аналізу інформації.

Розуміння модельованого мислення

Люди природно аналізують різні варіанти перед прийняттям рішень. Незалежно від того, що плануєте відпустку чи вирішення проблеми, ми часто імітуємо різні плани, щоб оцінити кілька факторів, зважувати плюси та мінуси та відповідно коригувати наш вибір. Дослідники інтегрують цю здатність до LLM, щоб покращити свої можливості міркувань. Тут модельоване мислення по суті стосується здатності LLMS виконувати систематичні міркування, перш ніж генерувати відповідь. Це на відміну від простого отримання відповіді із збережених даних. Корисна аналогія вирішує математичну задачу:

Основний ШІ може розпізнати шаблон і швидко генерувати відповідь, не перевіряючи її.
ШІ, що використовує модельоване міркування, спрацювало б через кроки, перевірить наявність помилок та підтверджує його логіку, перш ніж відповісти.

Ланцюжок: Навчання ШІ думати в кроках

Якщо LLM повинні виконувати модельовані мислення, як люди, вони повинні мати можливість розщеплювати складні проблеми на менші послідовні кроки. Ось де Ланцюг (ліжечко) Техніка відіграє вирішальну роль.

COT – це підказний підхід, який керує LLM для методичного вирішення проблем. Замість того, щоб перейти до висновків, цей структурований процес міркувань дозволяє LLMS розділити складні проблеми на більш прості, керовані кроки та вирішувати їх покроковою.

Наприклад, при вирішенні проблеми слова в математиці:

Основний ШІ може спробувати відповідати проблемі з раніше побаченим прикладом та надати відповідь.
AI, що використовує міркування ланцюга думки, окреслював би кожен крок, логічно працюючи за розрахунками, перш ніж прийти до остаточного рішення.

Цей підхід є ефективним у областях, що потребують логічного відрахування, багатоетапного вирішення проблем та контекстного розуміння. Незважаючи на те, що попередні моделі вимагали міркувань, що надаються людині, вдосконалені LLM, такі як O3 O3 та Deepseek’s R1, можуть навчитися та застосувати міркування COT Adaptive.

Як провідні LLM впроваджують імітоване мислення

Різні LLM використовують імітоване мислення по -різному. Нижче наведено огляд того, як O3 O3, моделі Google Deepmind та DeepSeek-R1 виконують моделювання мислення, а також їхні сильні сторони та обмеження.

OpenAI O3: Думаючи заздалегідь, як шахи

В той час як точні деталі про модель O3 Openai залишаються нерозкритою, дослідники вірити він використовує техніку, подібну до Пошук дерев Монте -Карло (MCTS), стратегія, що використовується в іграх, керованих AI, таких як Альфаго. Як і шаховий гравець, який аналізує кілька кроків, перш ніж вирішити, O3 досліджує різні рішення, оцінює їх якість та вибирає найбільш перспективні.

На відміну від попередніх моделей, які покладаються на розпізнавання шаблонів, O3 активно генерує та уточнює шляхи міркувань за допомогою методів COT. Під час висновку він виконує додаткові обчислювальні кроки для побудови декількох міркувань. Потім вони оцінюються за моделлю оцінювача – імовірно, модель винагород, навченої для забезпечення логічної узгодженості та коректності. Кінцева відповідь вибирається на основі механізму балів для забезпечення добре обґрунтованого виходу.

O3 слідкує за структурованим багатоетапним процесом. Спочатку він тонко налаштований на величезному наборі даних людських міркувань, інтерналізації логічних моделей мислення. У виходи, він генерує декілька рішень для заданої проблеми, займає їх на основі правильності та узгодженості, і уточнює найкращий, якщо потрібно. Незважаючи на те, що цей метод дозволяє O3 самокоректувати перед реагуванням та підвищенням точності, компроміс-це обчислювальна вартість-для розгляду декількох можливостей вимагає значної потужності обробки, що робить його повільнішим та більш інтенсивним ресурсами. Тим не менш, O3 перевершує динамічний аналіз та вирішення проблем, позиціонуючи його серед найсучасніших моделей AI.

Google Deepmind: вдосконалення відповідей, як редактор

Deepmind розробив новий підхід під назвою “Еволюція розуму“, Який розглядає міркування як ітеративний процес уточнення. Замість аналізу декількох майбутніх сценаріїв ця модель більше схожа на редактор, що вдосконалює різні проекти есе. Модель генерує кілька можливих відповідей, оцінює їх якість та уточнює найкращі.

Натхненний генетичними алгоритмами, цей процес забезпечує високоякісні реакції через ітературу. Він особливо ефективний для структурованих завдань, таких як логічні головоломки та проблеми з програмуванням, де чіткі критерії визначають найкращу відповідь.

Однак цей метод має обмеження. Оскільки він покладається на зовнішню систему балів для оцінки якості відповіді, вона може боротися з абстрактними міркуваннями без чіткого права чи неправильної відповіді. На відміну від O3, який динамічно міркує в режимі реального часу, модель DeepMind зосереджується на вдосконаленні існуючих відповідей, що робить його менш гнучким для відкритих питань.

DeepSeek-R1: Навчитися міркувати, як студент

DeepSeek-R1 використовує підхід, що базується на підкріпленні, який дозволяє йому розвивати можливості міркування з часом, а не оцінювати кілька відповідей у режимі реального часу. Замість того, щоб покладатися на попередньо створені дані міркувань, DeepSeek-R1 вчиться, вирішуючи проблеми, отримуючи відгуки та вдосконалюючи ітеративно-подібне до того, як студенти вдосконалюють свої навички вирішення проблем через практику.

Модель слідкує за структурованою циклом навчання арматури. Він починається з базової моделі, наприклад DeepSeek-v3і пропонується вирішити математичні задачі поетапно. Кожна відповідь перевіряється шляхом виконання прямого коду, обходячи потребу в додатковій моделі для перевірки правильності. Якщо рішення правильне, модель винагороджена; Якщо це неправильно, він покараний. Цей процес багато повторюється, що дозволяє DeepSeek-R1 вдосконалити свої логічні навички міркувань та визначити пріоритетніші більш складні проблеми з часом.

Ключовою перевагою цього підходу є ефективність. На відміну від O3, який проводить великі міркування під час висновку, DeepSeek-R1 вбудовує можливості міркувань під час навчання, що робить його швидшим та економічно вигідним. Він має високу масштабну, оскільки він не потребує масового мітки набору даних або дорогої моделі перевірки.

Однак цей підхід, заснований на навчанні, має компроміси. Оскільки він покладається на завдання з перевіреними результатами, він переважає в математиці та кодуванні. Тим не менш, це може боротися з абстрактними міркуваннями в законі, етиці чи творчому вирішенні проблем. Хоча математичні міркування можуть перенести в інші домени, його більш широке застосування залишається невизначеним.

Таблиця: Порівняння між O3 Openai, еволюцією розуму DeepMind та R1 Deepseek

Майбутнє AI міркувань

Модельоване міркування є важливим кроком до того, щоб зробити AI більш надійним та розумним. У міру розвитку цих моделей фокус перейде від простого генерування тексту до розвитку надійних здібностей для вирішення проблем, які дуже нагадують людське мислення. Майбутні прогреси, ймовірно, зосередиться на створенні моделей AI, здатними виявити та виправляти помилки, інтеграцію їх із зовнішніми інструментами для перевірки відповідей та розпізнавання невизначеності, коли стикаються з неоднозначною інформацією. Однак ключовим завданням є врівноваження глибини міркувань з обчислювальною ефективністю. Кінцева мета – розробити системи AI, які продумано враховують їх відповіді, забезпечуючи точність та надійність, як і людський експерт, ретельно оцінюючи кожне рішення, перш ніж вжити заходів.

Джерело

Розуміння модельованого мислення

Ланцюжок: Навчання ШІ думати в кроках

Як провідні LLM впроваджують імітоване мислення

OpenAI O3: Думаючи заздалегідь, як шахи

Google Deepmind: вдосконалення відповідей, як редактор

DeepSeek-R1: Навчитися міркувати, як студент

Майбутнє AI міркувань

Залишити відповідь Скасувати коментар

Схожі Новини

Тюлу 3 Аллена Ай просто став несподіваним суперником DeepSeek

«Просунута енциклопедія». 15-річний ліцеїст змінив спорт на технології та розробляє ШІ-помічника для допомоги у навчанні. Як на це дивляться вчителі

У 2025 році Мінцифри планує спільно з Google впровадити ШІ на платформі «Дія.Освіта»