Особисто протестував нову ШІ-модель. Коротка відповідь — ні, це не найкраща ШІ-модель у світі.
Тепер довша відповідь. Компанія Маска, що розробляє Grok, увійшла в ШІ-гонку останньою. Він заснував xAI у 2023 році — на 13 років пізніше за DeepMind і на 8 років пізніше за OpenAI.
Розрив шалений, але Маск не новачок в цій індустрії, саме він є співзасновником OpenAI. І проєкт Маска дійсно швидко біг, вони встигли побудувати за 8 місяців «суперкомп’ютер», залучили 200 000 GPU — в 10 разів більше потужності за ті, на яких навчалась попередня модель Grok 2.
Однак все, що презентували, насправді вторинно:
- Grok 3 нібито перевершує GPT-4o та інші ШІ-моделі за стандартними тестами. Однак вже давно кажуть, що моделі можуть бути оптимізованими під всі ці тести. Та навіть на просте запитання «що більше — 9.11 чи 9.9?» відповідає неправильно. Для порівняння, Gemini 2.0 Pro Experimental відповідає правильно.

- Модель, що «розмірковує», Grok 3 + Thinking відповідає приблизно як модель o3-mini від OpenAI, DeepSeek-R1 та Gemini 2.0 Flash Thinking. Але навіть на тому самому запитанні «що більше — 9.11 чи 9.9?» відповідь була неправильною.

Мій тест на логіку модель, що «розмірковує», також провалила: «У 12-поверховому будинку є ліфт. На першому поверсі живе всього 2 людей, від поверху до поверху кількість мешканців збільшується вдвічі. На якому поверсі в цьому будинку частіше інших натискається кнопка виклику ліфта?».
Хоча треба визнати, що Grok вже випередив у цьому плані Claude — ті все ще готуються до презентації моделі, що «розмірковує».
- DeepSearch у Grok протестував на промпті «останні тренди в military tech». Підготувало дійсно гарні результати. Але першими такого агента DeepResearch зробили Gemini, потім DeepResearch у ChatGPT і Perplexity DeepResearch. Це не є унікальним і не є таким, що на голову вище в інших.
Тому як спроба швидко наздогнати лідерів — ChatGPT, Gemini та Claude — зараховується. Але все це загалом про копіювання-наслідування ідей і без проривів. Навіть голосовий режим лише анонсується, який давно вже є у OpenAI.
Як нагорода за старання — лідерство моделі Grok 3 на ChatBot Arena, за відгуками користувачів.
Але ажіотаж, пов’язаний із запуском Grok 3, триватиме недовго. Найближчими тижнями ми побачимо GPT-4.5 від OpenAI та Opus 3.5 від Claude, які знову покажуть, хто тут лідери та встановлює нові стандарти.