GROK 3 — чи дійсно це найрозумніший штучний інтелект на Землі, як казав Ілон Маск? – блог


Особисто протестував нову -модель. Коротка відповідь — ні, це не найкраща ШІ-модель у світі. 

Тепер довша відповідь. Компанія Маска, що розробляє Grok, увійшла в ШІ-гонку останньою. Він заснував xAI у 2023 році — на 13 років пізніше за  і на 8 років пізніше за .

Розрив шалений, але Маск не новачок в цій індустрії, саме він є співзасновником OpenAI. І проєкт Маска дійсно швидко біг, вони встигли побудувати за 8 місяців «суперкомп’ютер», залучили 200 000 GPU — в 10 разів більше потужності за ті, на яких навчалась попередня модель Grok 2.

Однак все, що презентували, насправді вторинно:

  • Grok 3 нібито перевершує GPT-4o та ін ШІ-моделі за стандартними тестами. Однак вже давно кажуть, що моделі можуть бути оптимізованими під всі ці тести. Та навіть на просте запитання «що більше — 9.11 чи 9.9?» відповідає неправильно. Для порівняння, Gemini 2.0 Pro Experimental відповідає правильно.
Модель, що «розмірковує», Grok 3 + Thinking помиляється на простому запитанні
  • Модель, що «розмірковує», Grok 3 + Thinking відповідає приблизно як модель o3-mini від OpenAI, DeepSeek-R1 та Gemini 2.0 Flash Thinking. Але навіть на тому самому запитанні «що більше — 9.11 чи 9.9?» відповідь була неправильною.
якщо вже Grok 3 + Thinking помиляється, то і звичайна модель Grok 3 теж помиляється

Мій тест на логіку модель, що «розмірковує», також провалила: «У 12-поверховому будинку є ліфт. На першому поверсі живе всього 2 людей, від поверху до поверху кількість мешканців збільшується вдвічі. На якому поверсі в цьому будинку частіше інших натискається кнопка виклику ліфта?».

Хоча треба визнати, що Grok вже випередив у цьому плані Claude — ті все ще готуються до презентації моделі, що «розмірковує».

  • DeepSearch у Grok протестував на промпті «останні тренди в military tech». Підготувало дійсно гарні результати. Але першими такого агента DeepResearch зробили Gemini, потім DeepResearch у  і Perplexity DeepResearch. Це не є унікальним і не є таким, що на голову вище в інших.

Тому як спроба швидко наздогнати лідерів — ChatGPT, Gemini та Claude — зараховується. Але все це загалом про копіювання-наслідування ідей і без проривів. Навіть голосовий режим лише анонсується, який давно вже є у OpenAI.

Як нагорода за старання — лідерство моделі Grok 3 на ChatBot Arena, за відгуками користувачів.

Але ажіотаж, пов’язаний із запуском Grok 3, триватиме недовго. Найближчими тижнями ми побачимо GPT-4.5 від OpenAI та Opus 3.5 від Claude, які знову покажуть, хто тут лідери та встановлює нові стандарти.



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *