Тюлу 3 Аллена Ай просто став несподіваним суперником DeepSeek

Зміст

Заголовки продовжують надходити. Моделі DeepSeek були складними орієнтирами, встановлювали нові стандарти та видавали багато шуму. Але щось цікаве щойно сталося на дослідницькій сцені AI, яка також варта вашої уваги.

Весь ШІ тихо випустив свій новий Сварка 3 Сімейство моделей та їх версія параметрів 405B не просто конкурують з DeepSeek – вона відповідає або б’є його на ключових орієнтирах.

Давайте поставимо це в перспективу.

Модель 405B Tülu 3 піднімається проти топ -виконавців, як DeepSeek V3 через цілий ряд завдань. Ми спостерігаємо порівнянні або чудові показники в таких областях, як математичні проблеми, проблеми з кодуванням та точні інструкції. І вони також роблять це з повністю відкритим підходом.

Вони випустили повний навчальний трубопровід, код та навіть їхній метод навчання підсилення під назвою Підготовка підсилення з підтвердженням нагород (RLVR), що зробило це можливим.

Такі події за останні кілька тижнів дійсно змінюють те, як відбувається розвиток AI найвищого рівня. Коли повністю Модель з відкритим кодом Може відповідати найкращим закритим моделям там, він відкриває можливості, які раніше були зачинені за приватними корпоративними стінами.

Технічна битва

Що змусило Tülu 3 виділитися? Це зводиться до унікального чотириступеневого тренувального процесу, який виходить за рамки традиційних підходів.

Давайте розглянемо, як Аллен Ай побудував цю модель:

Етап 1: Стратегічний вибір даних

Команда знала, що якість моделі починається з якості даних. Вони поєднували встановлені набори даних, як Wildchat і Відкритий помічник з вмістом, створеним на замовлення. Але ось ключове розуміння: вони не просто сукупні дані – вони створили цільові набори даних для конкретних навичок, таких як математичні міркування та знання кодування.

Етап 2: Побудова кращих відповідей

На другому етапі Аллен AI зосередився на навчанні їх модельних конкретних навичок. Вони створили різні набори даних про навчання – деякі для математики, інші для кодування, та інші для загальних завдань. Неодноразово перевіряючи ці комбінації, вони могли точно побачити, де модель відзначилася і де вона потребує роботи. Цей ітеративний процес виявив справжній потенціал того, чого може досягти Tülu 3 у кожній області.

Етап 3: Навчання з порівнянь

Тут Аллен Ай став творчим. Вони побудували систему, яка могла миттєво порівняти відповіді Tülu 3 проти інших топ -моделей. Але вони також вирішили постійну проблему в ШІ – тенденція до моделей писати довгі відповіді лише заради довжини. Їх підхід, використання Оптимізація прямих переваг довжиною (DPO)означало, що модель навчилася цінувати якість над кількістю. Результат? Відповіді, які є і точними та цілеспрямованими.

Коли моделі AI вчаться з уподобань (яка відповідь краща, A або B?), Вони, як правило, розвивають розчаровуючу упередженість: вони починають думати, що довші відповіді завжди кращі. Це як вони намагаються перемогти, кажучи більше, а не говорячи речі добре.

Довжина нормалізована DPO виправляє це, коригуючи, як модель дізнається з уподобань. Замість того, щоб просто дивитись, яка відповідь була кращою, вона враховує тривалість кожної відповіді. Подумайте про це як про оцінку відповідей за якістю на слово, а не лише їх загальним впливом.

Чому це має значення? Тому що це допомагає Tülu 3 навчитися бути точним та ефективним. Замість того, щоб відводити відповіді з додатковими словами, щоб здатися більш всебічними, він вчиться надавати цінність у будь -яку довжину насправді.

Це може здатися невеликою деталлю, але це має вирішальне значення для побудови AI, що спілкується природним шляхом. Найкращі людські експерти знають, коли бути стислим і коли слід детально розраховувати-і це саме те, що DPO-нормалізована довжина допомагає навчити моделі.

Етап 4: інновації RLVR

Це технічний прорив, який заслуговує на увагу. RLVR замінює суб’єктивні моделі винагороди на конкретну перевірку.

Більшість моделей AI навчаються через складну систему моделей винагороди – по суті освічені здогадки про те, що робить хорошу відповідь. Але Аллен Ай пройшов інший шлях з RLVR.

Подумайте, як ми зараз тренуємо моделі AI. Зазвичай нам потрібні інші моделі AI (звані моделями винагороди), щоб судити, чи є відповідь хорошою чи ні. Він суб’єктивний, складний і часто непослідовний. Деякі відповіді можуть здатися хорошими, але містять тонкі помилки, які прослизають.

RLVR перевертає цей підхід на голові. Замість того, щоб покладатися на суб’єктивні судження, він використовує конкретні, перевірені результати. Коли модель намагається математичну проблему, немає сірої області – відповідь або правильна, або неправильна. Коли він записує код, цей код працює правильно, або цього не робить.

Ось де це стає цікавим:

Модель отримує негайний, двійковий відгук: 10 балів для правильних відповідей, 0 для неправильних
Немає місця для часткової кредитної або нечіткої оцінки
Навчання стає зосередженим і точним
Модель вчиться визначити пріоритетність точності перед правдоподібними звуковими, але неправильними відповідями

Тренінг RLVR (Allen AI)

Результати? Tülu 3 показав значне поліпшення завдань, де правильність має значення найбільше. Його виступ на математичних міркуваннях (еталон GSM8K) та виклики кодування зокрема. Навіть його інструкція стало більш точним, оскільки модель навчилася цінувати конкретну точність над приблизними відповідями.

Що робить це особливо захоплюючим, як це змінює гру для AI з відкритим кодом. Попередні підходи часто намагалися відповідати точності закритих моделей технічних завдань. RLVR показує, що при правильному навчальному підході моделі з відкритим кодом можуть досягти того самого рівня надійності.

Погляд на цифри

Версія параметра 405B Tülu 3 конкурує безпосередньо з топ -моделями у цій галузі. Давайте розглянемо, де він переважає, і що це означає для AI з відкритим кодом.

Математика

Tülu 3 перевершує складні математичні міркування. На таких орієнтирах, як GSM8K та Math, він відповідає виконанню DeepSeek. Модель вирішує багатоетапні задачі і демонструє сильні математичні можливості міркувань.

Кодування

Результати кодування виявляються однаково вражаючими. Завдяки навчанню RLVR, Tülu 3 пише код, який ефективно вирішує проблеми. Його сила полягає в розумінні інструкцій з кодування та створення функціональних рішень.

Точна інструкція наступна

Здатність моделі дотримуватися інструкцій виділяється як основна сила. Хоча багато моделей наближають або узагальнюють інструкції, Tülu 3 демонструє неабияку точність у виконанні саме того, що запитують.

Відкриття чорної коробки розвитку AI

Allen AI випустив як потужну модель, так і їх повний процес розробки.

Кожен аспект навчального процесу стоїть документально та доступні. Від чотириступеневого підходу до методів підготовки даних та впровадження RLVR-весь процес лежить відкритий для вивчення та реплікації. Ця прозорість встановлює новий стандарт у високопродуктивній розробці AI.

Розробники отримують комплексні ресурси:

Повні навчальні трубопроводи
Інструменти обробки даних
Рамки оцінки
Технічні характеристики реалізації

Це дозволяє командам:

Змініть навчальні процеси
Адаптувати методи конкретних потреб
Будувати на перевірених підходах
Створіть спеціалізовані реалізації

Цей відкритий підхід прискорює інновації на місцях. Дослідники можуть розвиватись на перевірених методах, тоді як розробники можуть зосередитись на вдосконаленні, а не на починаючи з нуля.

Зростання досконалості з відкритим кодом

Успіх Tülu 3 – це великий момент для відкритого розвитку ШІ. Коли Моделі з відкритим кодом відповідають або перевищують приватні альтернативице принципово змінює галузь. Дослідницькі групи по всьому світу отримують доступ до перевірених методів, прискорюючи свою роботу та нерестуючи нові інновації. Приватні лабораторії AI повинні будуть адаптуватися – або шляхом підвищення прозорості, або ще більше підштовхування технічних меж.

Забігаючи наперед, прориви Tülu 3 у підтвердженні нагород та багатоступеневих тренувань натяк на те, що відбувається. Команди можуть розвиватись на цих фундаментах, потенційно підштовхуючи ефективність ще вище. Код існує, методи задокументовані, і почалася нова хвиля розвитку ШІ. Для розробників та дослідників можливість експериментувати та вдосконалюватись на цих методах, позначає початок захоплюючої глави розвитку ШІ.

Часті запитання (FAQ) про Tülu 3

Що таке Tülu 3 і які його ключові особливості?

Tülu 3-це родина LLM з відкритим кодом, розробленого Allen AI, побудована на архітектурі Llama 3.1. Він поставляється в різних розмірах (параметри 8b, 70b та 405b). Tülu 3 призначений для підвищення продуктивності в різних завданнях, включаючи знання, міркування, математику, кодування, інструкцію та безпеку.

Який навчальний процес для Tülu 3 та які дані використовуються?

Навчання Tülu 3 передбачає кілька ключових етапів. По -перше, команда курирує різноманітний набір підказок як з публічних наборів даних, так і з синтетичних даних, спрямованих на конкретні навички, гарантуючи, що дані будуть знезаражені проти орієнтирів. По-друге, контролюється FinetUnuning (SFT), виконується на поєднанні даних, що відповідають інструкції, математиці та кодуванні. Далі використовується пряма оптимізація переваг (DPO) з даними про перевагу, що генеруються за допомогою зворотного зв’язку людини та LLM. Нарешті, навчання підкріплення з перевіреними нагородами (RLVR) використовується для завдань з вимірювальною коректністю. Tülu 3 використовує набори даних кураторів для кожного етапу, включаючи інструкції, орієнтовані на персону, математику та дані коду.

Як Tülu 3 підходить до безпеки та які показники використовуються для її оцінки?

Безпека – це основна складова розвитку Tülu 3, розглянута протягом усього навчального процесу. Під час SFT використовується специфічний для безпеки набір даних, який, як виявляється, є значною мірою ортогональним для інших даних, орієнтованих на завдання.

Що таке RLVR?

RLVR – це техніка, коли модель навчається оптимізувати проти перевіреної винагороди, як правильність відповіді. Це відрізняється від традиційного RLHF, який використовує модель винагород.

Джерело