ШІ-дослідник та співзасновник OpenAI Андрей Карпати протестував Grok 3 Маска: ось його висновки


17 лютого стартап Ілона Маска xAI презентував новий чат-бот Grok 3. Співзасновник та колишній голова відділу розробки пілота Андрей Карпати протестував новинку Маска, отримавши ранній доступ. Які висновки він зробив за дві години користування Grok 3?

Спочатку Андрей Карпати перевірив чат-бот щодо вміння мислити: завдання стосувалися ігор The Settlers of Catan і хрестики-нулики, Emoji mystery, гіпотези Рімана та іншого.

«По-перше, Grok 3 явно має найсучаснішу модель мислення (є кнопка „Думати“) і чудово впоралася з моїм питанням Settler of Catan», — написав -дослідник в X.

Карпати використав наступний промпт: «Створи вебсторінку настільної гри, яка показує шестигранну сітку, як у грі Settlers of Catan. Кожен шестикутник сітки пронумеруй від 1 до N, де N — загальна кількість шестикутників. Зроби її такою, щоб можна було змінювати кількість „кілець“ за допомогою повзунка. Наприклад, у Catan радіус становить шестикутники. Одну html-сторінку, будь ласка».

Співзасновник OpenAI зауважив, що не усім моделям вдається зробити це добре. Наприклад, o1-pro з платною підпискою $200 на місяць це під силу, а ось DeepSeek-R1, Gemini 2.0 Flash Thinking та Claude з цим не можуть впоратись. 

Водночас Grok 3 не зміг розгадати загадку з Emoji mystery, навіть після чіткої підказки, як можна розшифрувати за допомогою Rust. Найкраще з таким завданням справилася DeepSeek-R1, яка частково розкодувала повідомлення. 

Потім Grok 3 отримав завдання розв’язати декілька дощок гри хрестики-нулики, з чим справився добре. Але не зміг згенерувати 3 «хитрі» дошки для гри, хоча з цим і o1 pro не впорався.  

Далі Карпати завантажив документ GPT-2 і поставив купу простих пошукових запитань, що добре спрацювало. Потім попросив оцінити кількість тренувальних провалів, необхідних для навчання GPT-2, без пошуку.

«Це складно, оскільки кількість токенів не вказана, тому її потрібно частково оцінити та частково обчислити, акцентуючи увагу на пошуку, знаннях і математиці. Одним із прикладів є 40 ГБ тексту ≅ 40 Б символів ≅ 40 Б байт (припустимо ASCII) ≅ 10 Б маркерів (припустимо ~4 байт/токен), при ~10 епохах ≅ 100 Б маркерів тренувального запуску, при 1,5 Б параметрів і з 2+4=6 flops/параметр/токен, це 100e9 X 1,5e9 X 6 ≅ 1e21 flops. І Grok 3, і 4o не справляються із цим завданням, але Grok 3  чудово вирішує це завдання, тоді як o1 pro (модель мислення GPT) не справляється», — зазначив ШІ-дослідник.

Модель до останнього намагалася розв’язати гіпотезу Рімана, поки Карпати не зупинив свої спроби. Ін моделі з таким завданням миттєво здавалися, просто кажучи, що це велика невирішена проблема. 

«Загальне враження, яке я тут склав, полягає в тому, що це десь приблизно за можливостями o1-pro і випереджає DeepSeek-R1, хоча, звичайно, нам потрібні фактичні, реальні оцінки», — зробив висновки Карпати про те, як вміє мислити Grok 3.

Далі Карпати перевірив функцію DeepSearch для пошуку відповідей в інтернеті. 

OpenAI запустила Deep Research для пошуку інформації в інтернеті. У Grok 3 теж є така можливість, яка називається трохи по іншому DeepSearch.

За допомогою DeepSearch Карпати шукав відповіді в інтернеті на декілька запитань. Тож Grok 3 правильно відповів на питання про майбутній запуск , чому падають акції компанії Palantir, де знімали «Білий лотос 3» і якою зубною пастою користується Браян Джонсон.

На два питання ШІ не зміг знайти правильної відповіді, а саме: де зараз актори 4 сезону серіалу « для самотніх» і якою програмою для перетворення мови в текст користується Саймон Віллісон.

Крім того, Grok 3 не любить посилатися на X як на джерело за замовчуванням, хоча можна попросити про це. Кілька разів модель посилалася на вигадані URL-адреси.

«У мене склалося враження про DeepSearch, що він приблизно такий же, як і Perplexity DeepResearch (це чудово!), але ще не на рівні нещодавно випущеного OpenAI Deep Research, який усе ще виглядає більш ретельним і надійним (хоча й досі не є досконалим)», — підсумував співзасновник OpenAI.

Також почуття гумору Grok 3  не покращилося, але така проблема є у багатьох ШІ. Також модель все ще надто чутлива до «складних етичних питань».

Який висновок зробив ШІ-дослідник?

ШІ-дослідник та співзасновник OpenAI Андрей Карпати

За результатами швидкої перевірки протягом близько 2 годин сьогодні вранці, Grok 3 + Thinking відчуває себе десь на рівні найсучасніших моделей OpenAI (o1-pro, $200/місяць), і трохи краще, ніж DeepSeek-R1 і Gemini 2.0 Flash Thinking. Що досить неймовірно, враховуючи, що команда почала з нуля приблизно 1 рік тому, такий часовий проміжок для досягнення високого рівня є безпрецедентним.

Не забувайте також про застереження — моделі є стохастичними і можуть давати дещо різні відповіді кожного разу, і це дуже рано, тому нам доведеться чекати на набагато більше оцінок протягом наступних кількох днів/тижнів. Перші результати на LM-арені виглядають досить обнадійливими.

Наразі, великі вітання команді xAI, вони явно мають величезну швидкість та імпульс, і я з нетерпінням чекаю, щоб додати Grok 3 до моєї «LLM ради» та почути, що вона думає про майбутнє.



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *