Спочатку Андрей Карпати перевірив чат-бот щодо вміння мислити: завдання стосувалися ігор The Settlers of Catan і хрестики-нулики, Emoji mystery, гіпотези Рімана та іншого.
«По-перше, Grok 3 явно має найсучаснішу модель мислення (є кнопка „Думати“) і чудово впоралася з моїм питанням Settler of Catan», — написав ШІ-дослідник в X.
Карпати використав наступний промпт: «Створи вебсторінку настільної гри, яка показує шестигранну сітку, як у грі Settlers of Catan. Кожен шестикутник сітки пронумеруй від 1 до N, де N — загальна кількість шестикутників. Зроби її такою, щоб можна було змінювати кількість „кілець“ за допомогою повзунка. Наприклад, у Catan радіус становить шестикутники. Одну html-сторінку, будь ласка».
Співзасновник OpenAI зауважив, що не усім моделям вдається зробити це добре. Наприклад, o1-pro з платною підпискою $200 на місяць це під силу, а ось DeepSeek-R1, Gemini 2.0 Flash Thinking та Claude з цим не можуть впоратись.
Водночас Grok 3 не зміг розгадати загадку з Emoji mystery, навіть після чіткої підказки, як можна розшифрувати за допомогою Rust. Найкраще з таким завданням справилася DeepSeek-R1, яка частково розкодувала повідомлення.
Потім Grok 3 отримав завдання розв’язати декілька дощок гри хрестики-нулики, з чим справився добре. Але не зміг згенерувати 3 «хитрі» дошки для гри, хоча з цим і o1 pro не впорався.
Далі Карпати завантажив документ GPT-2 і поставив купу простих пошукових запитань, що добре спрацювало. Потім попросив оцінити кількість тренувальних провалів, необхідних для навчання GPT-2, без пошуку.
«Це складно, оскільки кількість токенів не вказана, тому її потрібно частково оцінити та частково обчислити, акцентуючи увагу на пошуку, знаннях і математиці. Одним із прикладів є 40 ГБ тексту ≅ 40 Б символів ≅ 40 Б байт (припустимо ASCII) ≅ 10 Б маркерів (припустимо ~4 байт/токен), при ~10 епохах ≅ 100 Б маркерів тренувального запуску, при 1,5 Б параметрів і з 2+4=6 flops/параметр/токен, це 100e9 X 1,5e9 X 6 ≅ 1e21 flops. І Grok 3, і 4o не справляються із цим завданням, але Grok 3 чудово вирішує це завдання, тоді як o1 pro (модель мислення GPT) не справляється», — зазначив ШІ-дослідник.
Модель до останнього намагалася розв’язати гіпотезу Рімана, поки Карпати не зупинив свої спроби. Інші моделі з таким завданням миттєво здавалися, просто кажучи, що це велика невирішена проблема.
«Загальне враження, яке я тут склав, полягає в тому, що це десь приблизно за можливостями o1-pro і випереджає DeepSeek-R1, хоча, звичайно, нам потрібні фактичні, реальні оцінки», — зробив висновки Карпати про те, як вміє мислити Grok 3.
Далі Карпати перевірив функцію DeepSearch для пошуку відповідей в інтернеті.
OpenAI запустила Deep Research для пошуку інформації в інтернеті. У Grok 3 теж є така можливість, яка називається трохи по іншому DeepSearch.
За допомогою DeepSearch Карпати шукав відповіді в інтернеті на декілька запитань. Тож Grok 3 правильно відповів на питання про майбутній запуск Apple, чому падають акції компанії Palantir, де знімали «Білий лотос 3» і якою зубною пастою користується Браян Джонсон.
На два питання ШІ не зміг знайти правильної відповіді, а саме: де зараз актори 4 сезону серіалу «Пекло для самотніх» і якою програмою для перетворення мови в текст користується Саймон Віллісон.
Крім того, Grok 3 не любить посилатися на X як на джерело за замовчуванням, хоча можна попросити про це. Кілька разів модель посилалася на вигадані URL-адреси.
«У мене склалося враження про DeepSearch, що він приблизно такий же, як і Perplexity DeepResearch (це чудово!), але ще не на рівні нещодавно випущеного OpenAI Deep Research, який усе ще виглядає більш ретельним і надійним (хоча й досі не є досконалим)», — підсумував співзасновник OpenAI.
Також почуття гумору Grok 3 не покращилося, але така проблема є у багатьох ШІ. Також модель все ще надто чутлива до «складних етичних питань».
Який висновок зробив ШІ-дослідник?
ШІ-дослідник та співзасновник OpenAI Андрей Карпати
За результатами швидкої перевірки протягом близько 2 годин сьогодні вранці, Grok 3 + Thinking відчуває себе десь на рівні найсучасніших моделей OpenAI (o1-pro, $200/місяць), і трохи краще, ніж DeepSeek-R1 і Gemini 2.0 Flash Thinking. Що досить неймовірно, враховуючи, що команда почала з нуля приблизно 1 рік тому, такий часовий проміжок для досягнення високого рівня є безпрецедентним.
Не забувайте також про застереження — моделі є стохастичними і можуть давати дещо різні відповіді кожного разу, і це дуже рано, тому нам доведеться чекати на набагато більше оцінок протягом наступних кількох днів/тижнів. Перші результати на LM-арені виглядають досить обнадійливими.
Наразі, великі вітання команді xAI, вони явно мають величезну швидкість та імпульс, і я з нетерпінням чекаю, щоб додати Grok 3 до моєї «LLM ради» та почути, що вона думає про майбутнє.