Дослідники ШІ зі Стенфорда та Університету Вашингтона змогли навчити модель «міркування» штучного інтелекту за менше ніж $50 кредитів на хмарні обчислення.
Свою модель, яка називається s1, вчені представили у дослідницькій статті, а також вона доступна на GitHub разом із даними та кодом, що використовувалися для її навчання.
s1 працює подібно до найсучасніших моделей міркування, таких як o1 OpenAI та R1 DeepSeek, у тестах, що вимірюють здібності до математики та програмування, пише TechCrunch.
Команда розробників s1 розповіла, що вони почали з готової базової моделі, а потім допрацювали її за допомогою дистиляції — процесу вилучення можливостей «міркування» з іншої моделі штучного інтелекту шляхом навчання на її відповідях.
Дослідники кажуть, що s1 створений на основі однієї з моделей міркувань Google, Gemini 2.0 Flash Thinking Experimental.
Дослідники, які стояли за s1, намагалися знайти найпростіший підхід до досягнення високої продуктивності міркувань і «масштабування часу тестування», тобто дозволити ШІ-моделі більше думати, перш ніж відповісти на запитання. Це були деякі з проривів в o1 від OpenAI, які DeepSeek та інші лабораторії ШІ намагалися повторити за допомогою різних методів.
У статті s1 припускається, що моделі міркувань можуть бути отримані з відносно невеликого набору даних за допомогою процесу, який називається контрольованою точною настройкою (SFT), в якому ШІ-моделі явно дається вказівка імітувати певну поведінку в наборі даних.
SFT, як правило, дешевше, ніж широкомасштабний метод навчання з підкріпленням, який DeepSeek використовував для навчання свого конкурента моделі o1 OpenAI, R1.
Google пропонує безплатний доступ до Gemini 2.0 Flash Thinking Experimental, хоча і з обмеженням добового тарифу, через свою платформу Google AI Studio. Однак умови Google забороняють реінжиніринг своїх моделей для розробки сервісів, які конкурують з власними пропозиціями ШІ компанії.
S1 базується на невеликій готовій моделі штучного інтелекту від китайської лабораторії штучного інтелекту Qwen, що належить компанії Alibaba, яку можна завантажити безплатно. Для навчання s1 дослідники створили набір даних з 1 000 ретельно підібраних запитань разом з відповідями на них, а також процес «мислення», що стоїть за кожною відповіддю, від Google Gemini 2.0 Flash Thinking Experimental.
Після навчання s1, яке зайняло менше ніж 30 хвилин з використанням 16 графічних процесорів Nvidia H100, s1 досягла високих показників у певних тестах ШІ. Дослідники також розповіли TechCrunch, що сьогодні можна орендувати необхідну обчислювальну машину приблизно за $20.
Дослідники використали хитрий трюк, щоб змусити s1 ще раз перевірити свою роботу та подовжити час «обдумування»: вони сказали йому почекати. Додавання слова «чекати» під час міркувань s1 допомогло моделі отримати дещо точніші відповіді, згідно з документом.
Дистиляція виявилася хорошим методом дешевого відтворення можливостей моделі штучного інтелекту, але вона не дозволяє створювати нові моделі штучного інтелекту, значно кращі за ті, що доступні сьогодні.