Китайці запустили одну з найпотужніших відкритих ШІ-моделей DeepSeek V3, яка добре працює з кодом, але не дуже охоче відповідає на питання стосовно країни розробника

Китайська компанія DeepSeek представила свою нову відкриту ШІ-модель — DeepSeek V3, яка, здається, перевершує американських конкурентів.

DeepSeek V3 може впоратися з такими завданнями, як кодування, переклад, написання есе та електронних листів на основі підказки, пише TechCrunch.

Згідно з внутрішнім порівняльним тестуванням DeepSeek, нова модель перевершує як завантажувані, «відкрито» доступні моделі, так і «закриті» моделі ШІ, доступ до яких можна отримати лише через API. У низці змагань з програмування на платформі Codeforces, DeepSeek випереджає інші моделі, зокрема Llama 3.1 405B від Meta, GPT-4o від OpenAI та Qwen 2.5 72B від Alibaba.

DeepSeek V3 також випереджає конкурентів у тесті Aider Polyglot, призначеному, серед іншого, для вимірювання того, чи може модель успішно писати новий код, який інтегрується в наявний код.

DeepSeek-V3!

60 tokens/second (3x faster than V2!)
API compatibility intact
Fully open-source models & papers
671B MoE parameters
37B activated parameters
Trained on 14.8T high-quality tokens

Beats Llama 3.1 405b on almost every benchmark pic.twitter.com/jVwJU07dqf

— Chubby♨️ (@kimmonismus) December 26, 2024

Компанія стверджує, що DeepSeek V3 була навчена на наборі даних з 14,8 трильйона токенів (1 млн токенів дорівнює приблизно 750 000 слів).

Масштабним є не лише навчальний набір. DeepSeek V3 має величезний розмір: 671 млрд параметрів (параметри — це внутрішні змінні, які моделі використовують для прогнозування або прийняття рішень). Це приблизно в 1,6 раза більше, ніж у Llama 3.1 405B, яка має 405 млрд параметрів.

Кількість параметрів часто (але не завжди) корелює з навичками; моделі з більшою кількістю параметрів, як правило, перевершують моделі з меншою кількістю параметрів. Але великі моделі також вимагають потужнішого обладнання для роботи. Неоптимізованій версії DeepSeek V3 знадобиться набір графічних процесорів високого класу, щоб відповідати на запитання з розумною швидкістю.

DeepSeek змогла навчити модель, використовуючи центр обробки даних з графічними процесорами Nvidia H800 всього за два місяці — графічні процесори, які нещодавно були заборонені Міністерством торгівлі США для китайських компаній. Компанія також стверджує, що витратила на навчання DeepSeek V3 лише $5,5 млн, що становить лише частину вартості розробки таких моделей, як GPT-4 від OpenAI.

Недоліком є те, що політичні погляди моделі трохи… кульгають. Запитайте DeepSeek V3 про площу Тяньаньмень, наприклад, і вона не відповість.

DeepSeek, будучи китайською компанією, підлягає порівняльному аналізу з боку китайського інтернет-регулятора, щоб переконатися, що відповіді її моделей «втілюють основні соціалістичні цінності». Багато китайських систем штучного інтелекту відмовляються відповідати на теми, які можуть викликати гнів регуляторів, наприклад, спекуляції про режим Сі Цзіньпіна.

Джерело

Схожі Новини

Залишити відповідь Скасувати коментар

Схожі Новини