DeepSeek: підвищення ефективності, а не зміна парадигми в інновації AI


З Нещодавнє хвилювання навколо DeepSeek, Розширена модель великої мови (LLM) зрозуміла, враховуючи значно підвищену ефективність, яку вона приносить у простір. Однак деякі реакції на його вивільнення, схоже, неправильно трактують масштаби його впливу. DeepSeek являє собою стрибок уперед у очікуваній траєкторії розвитку LLM, але він не сигналізує про революційний зсув до Штучний загальний інтелект (AGI), також не відзначає раптову трансформацію в центрі ваги інновацій AI.

Швидше за все, досягнення Deepseek-це природний прогрес на добре поцікавленому шляху-один експоненціальний ріст технології . Це не руйнівна зміна парадигми, а потужне нагадування про прискорений темп технологічних змін.

Здійснення ефективності DeepSeek: стрибок вздовж очікуваної траєкторії

Ядро хвилювання навколо DeepSeek полягає в його вражаючому підвищення ефективності. Його інновації багато в чому стосуються того, щоб зробити LLM швидше та дешевше, що має значні наслідки для економіки та доступності моделей AI. Однак, незважаючи на кайф, ці досягнення не є принципово новими, а скоріше уточненням існуючих підходів.

У 90-х роках висококласний комп’ютерний графічний графік вимагає суперкомп’ютерів. Сьогодні и здатні до одного і того ж завдання. Аналогічно, розпізнавання обличчя-лише ніша, високооцінка технології-тепер стане всюдисущою, поза полицею в смартфонах. DeepSeek вписується в цю схему технології: оптимізація існуючих можливостей, які забезпечують ефективність, але не новий, новаторський підхід.

Для тих, хто знайомий з принципами технологічного зростання, цей швидкий прогрес не є несподіваним. Теорія технологічної сингулярності, яка спричиняє прискорення прогресу в ключових сферах, таких як AI, передбачає, що прориви стануть частішими, коли ми підходимо до суттєвості. DeepSeek – це лише один момент у цій постійній тенденції, і його роль полягає в тому, щоб зробити існуючі технології AI більш доступними та ефективними, а не представляти раптовий стрибок у нові можливості.

Інновації DeepSeek: архітектурні підйоми, а не стрибок до AGI

Основний внесок DeepSeek полягає в оптимізації ефективності великих мовних моделей, особливо через її Суміш експертів (MOE) Архітектура. Мо-це добре встановлена ​​техніка навчання ансамблю, яка протягом багатьох років використовується в дослідженні ШІ. Те, що DeepSeek зробив особливо добре, – це вдосконалити цю методику, включаючи ін заходи з ефективності, щоб мінімізувати обчислювальні витрати та зробити LLM більш доступними.

  • Ефективність параметрів: Дизайн MOE Deepseek активує лише 37 мільярдів своїх 671 мільярдів параметрів у будь -який момент часу, зменшуючи обчислювальні вимоги до всього 1/18 традиційних LLM.
  • Підкріплення навчання для міркувань: Модель R1 Deepseek використовує підкріплення навчання для посилення міркувань ланцюга, життєво важливий аспект мовних моделей.
  • Багаторічна підготовка: Здатність DeepSeek-V3 прогнозувати кілька фрагментів тексту одночасно підвищує ефективність тренувань.

Ці вдосконалення роблять моделі DeepSeek різко дешевшими для тренувань та бігу в порівнянні з такими конкурентами, як або антроп. Незважаючи на те, що це важливий крок вперед для доступності LLMS, він залишається інженерним уточненням, а не концептуальним проривом у напрямку AGI.

Вплив AI з відкритим кодом

Одним із найпомітніших рішень Deepseek було прийняття своїх моделей з відкритим кодом-Чіткий відхід від власних підходів, таких компаній, таких як OpenAI, антроп та . Цей підхід з відкритим кодом, який підтримує дослідники AI, такі як ‘s Yann Lecun, сприяє більш децентралізованій екосистемі AI, де інновації можуть процвітати завдяки колективному розвитку.

Економічне обґрунтування рішення DeepSeek також зрозуміло. AI з відкритим кодом-це не просто філософська позиція, а ділова стратегія. Надаючи свою технологію доступною для широкого кола дослідників та розробників, DeepSeek позиціонує себе на користь від послуг, інтеграції підприємств та масштабованого хостингу, а не покладається виключно на продаж власних моделей. Цей підхід дає глобальному громаді AI доступу до конкурентних інструментів та зменшує задуху великих західних технологічних гігантів у просторі.

Зростаюча роль Китаю в гонці ШІ

Для багатьох факт, що прорив DeepSeek прийшов з Китаю, може дивуватися. Однак цей розвиток не слід розглядати з шоком або частиною геополітичного конкурсу. Провівши роки, спостерігаючи за ландшафтом AI Китаю, зрозуміло, що країна здійснила значні інвестиції в дослідження ШІ, що призвело до зростання таланту та досвіду.

Замість того, щоб обрамляти цей розвиток як виклик для західного домінування, це слід розглядати як ознаку все більш глобального характеру досліджень ШІ. Відкрита співпраця, а не націоналістична конкуренція, є найбільш перспективним шляхом до відповідального та етичного розвитку AGI. Децентралізоване, глобально розподілене зусилля набагато частіше створює AGI, який приносить користь усім людству, а не таку, яка обслуговує інтереси однієї нації чи корпорації.

Більш широкі наслідки DeepSeek: дивлячись за межі LLMS

Хоча значна частина хвилювання навколо DeepSeek обертається навколо його ефективності в просторі LLM, важливо відступити назад і розглянути більш широкі наслідки цього розвитку.

Незважаючи на свої вражаючі можливості, моделі на основі трансформаторів, такі як LLMS, ще далеко не досягають AGI. Вони не мають істотних якостей, таких як обґрунтована композиційна абстракція та самонаправлені міркування, які необхідні для загального інтелекту. Хоча LLM можуть матизувати широкий спектр економічних завдань та інтегруватися в різні галузі, вони не представляють ядра розвитку AGI.

Якщо AGI з’явиться в наступному десятилітті, навряд чи буде базуватися виключно на архітектурі трансформаторів. Альтернативні моделі, такі як Hyperon OpenCOG або нейроморфні обчислення, можуть бути більш фундаментальними для досягнення справжнього загального інтелекту.

Комодизація LLMS змінить інвестиції AI

Здійснення ефективності DeepSeek прискорює тенденцію до Комодизація LLMS. Оскільки витрати на ці моделі продовжують знижуватися, інвестори можуть почати виходити за рамки традиційних архітектур LLM для наступного великого прориву в ШІ. Ми можемо побачити зміну фінансування до архітектур AGI, які виходять за рамки трансформаторів, а також інвестиції в альтернативне обладнання AI, такі як нейроморфні чіпси або асоціативні одиниці обробки.

Децентралізація формуватиме майбутнє AI

Оскільки підвищення ефективності Deepseek полегшує розгортання моделей AI, вони також сприяють більш широкій тенденції децентралізації архітектури AI. З акцентом на конфіденційність, сумісність та контроль користувачів, децентралізований ШІ зменшить наше залежність від великих централізованих технологічних компаній. Ця тенденція має вирішальне значення для забезпечення того, щоб AI задовольнив потреби глобального населення, а не контролюватися жменькою потужних гравців.

Місце DeepSeek у вибуху Кембрійського AI

На закінчення, хоча DeepSeek є головною віхою в ефективності LLMS, це не революційний зсув у ландшафті ШІ. Швидше, це прискорює прогрес по добре встановленій траєкторії. Більш широкий вплив DeepSeek відчувається в декількох областях:

  • Тиск на діючих людей: DeepSeek кидає виклик компаніям, такими як OpenAI та антропічно переосмислити свої бізнес -моделі та знайти нові способи конкуренції.
  • Доступність ШІ: Зробивши високоякісні моделі більш доступними, DeepSeek демократизує доступ до передових технологій.
  • Глобальна конкуренція: Зростаюча роль Китаю в розвитку ШІ сигналізує про глобальний характер інновацій, що не обмежується Заходом.
  • Експоненціальний прогрес: DeepSeek – це чіткий приклад того, як швидкий прогрес в ШІ стає нормою.

Найголовніше, що DeepSeek служить нагадуванням про те, що, хоча ШІ швидко прогресує, справжній AGI, ймовірно, з’явиться через нові, фундаментальні підходи, а не оптимізує сьогоднішні моделі. Коли ми переходимо до сингулярності, важливо забезпечити, щоб розвиток AI залишався децентралізованим, відкритим та спільним.

DeepSeek – це не AGI, але це являє собою значний крок вперед у постійній подорожі до трансформаційного ШІ.



Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *