У меня уже лежал план оче­ред­ной колон­ки, как вдруг появи­лась новая тема, которая зас­тавила отло­жить все замет­ки в сто­рону и занять­ся ей. Речь, конеч­но же, про новень­кую китай­скую LLM под наз­вани­ем DeepSeek. Давай раз­берем­ся, в чем тут, собс­твен­но, новость и что имен­но она для нас изме­нит.

Со­бытие это мно­гие СМИ подали, начав с кра­соч­ного гра­фика: падение акций поч­ти всех ком­паний из спис­ка S&P 100 вслед за выходом китай­ской модели. Навер­няка ведь про­изош­ло что‑то зна­чимое, если (даль­ше — над­рывным голосом) за счи­таные часы были стер­ты сот­ни мил­лиар­дов дол­ларов!

Ни­какой осо­бой дра­мы тут, конеч­но же, нет, и это типич­ная реак­ция фон­дового рын­ка: вслед за про­седа­нием акций одно­го из круп­ных игро­ков тянет­ся весь сек­тор. Да и падение это для боль­шинс­тва учас­тни­ков где‑то в пре­делах нес­коль­ких про­цен­тов — срав­нимо со сред­несуточ­ными колеба­ниями.

По­это­му перехо­дим сра­зу к той «круп­ной ком­пании», а имен­но к Nvidia. Ее акции успе­ли лишить­ся до 17% цены, что очень даже ощу­тимо. Глав­ный воп­рос: при чем тут вооб­ще Nvidia? Он инте­рес­нее, чем кажет­ся на пер­вый взгляд, и игра­ет во всей этой исто­рии цен­траль­ную роль.

Пер­вое же, что узна­ёшь, начав читать о фон­де High-Flyer, где раз­работа­ли DeepSeek, — это то, что ее осно­ватель Лян Вэнь­фэн успел закупить 10 тысяч виде­окарт Nvidia A100 акку­рат до того, как США вве­ли огра­ниче­ние на про­дажу в Китай решений такого клас­са. А пос­леднюю вер­сию DeepSeek тре­ниро­вали уже на раз­решен­ных Nvidia H800. Что‑то не очень‑то похоже на страш­ный удар для Nvidia, прав­да?

Что уда­лось сде­лать коман­де Вэнь­фэня и не уда­лось пока никому дру­гому — это исполь­зовать наис­кром­ней­шие по мер­кам круп­ных ИИ‑ком­паний ресур­сы, что­бы обу­чить язы­ковую модель, срав­нимую во всех тес­тах с самыми кру­тыми ана­лога­ми. Соз­дание модели обош­лось High-Flyer в 6 мил­лионов дол­ларов, тог­да как OpenAI ухло­пала на GPT-4 в рай­оне 100 мил­лионов.

Сравнение DeepSeek-R1 с конкурентами
Срав­нение DeepSeek-R1 с кон­курен­тами

Как такое воз­можно? Злые язы­ки погова­рива­ют, что китай­ская модель прос­то переди­рала вывод ChatGPT и обу­чалась на нем. Этот метод называ­ется «дис­тилля­ция», и его широко исполь­зуют для получе­ния новых моделей из сущес­тву­ющих. Нап­ример, есть мно­жес­тво вер­сий Llama, сде­лан­ных таким обра­зом (толь­ко Llama опен­сор­сная, а вот поль­зователь­ское сог­лашение OpenAI про­сит так не делать).

С дру­гой сто­роны, раз­работ­чики DeepSeek опуб­ликова­ли под­робный отчет, где рас­ска­зыва­ют о сво­их методах балан­сиров­ки наг­рузки и более эффектив­ной тре­ниров­ки модели час­тями. Что в целом не исклю­чает и «спи­сыва­ния домаш­ки» у OpenAI, но дело явно не в этом. Если бы в OpenAI зна­ли более эффектив­ный метод тре­ниров­ки, то исполь­зовали бы его сами.

Впе­чат­ляет, что и сама модель тоже в резуль­тате получи­лась более эффектив­ной. Токены ее API обхо­дят­ся при­мер­но в 30 раз дешев­ле токенов OpenAI, то есть эко­номия прос­то огромна!

Цена токенов DeepSeek-R1 и ChatGPT o1
Це­на токенов DeepSeek-R1 и ChatGPT o1

И пос­ледний мощ­ный удар — модель рас­простра­няет­ся сво­бод­но. Мож­но ска­чивать и запус­кать на сво­ей виде­окар­те или даже взять одну из дис­тилли­рован­ных вер­сий и гонять на любом компь­юте­ре (я это уже про­делал — 14b неп­лохо работа­ет на далеко не новом Mac mini с базовым M1).

Все это объ­ясня­ет, чем могут быть недоволь­ны инвесто­ры OpenAI, и уж тем более дает повод для вол­нения сот­рудни­кам Meta и Anthropic. Модели топово­го качес­тва ста­новят­ся все дос­тупнее и дос­тупнее. Нас­толь­ко, что их уже дела­ют в про­курен­ных китай­ских под­валах (кар­тинка из сери­ала «Крем­ниевая долина» сама вста­ет перед гла­зами). Сох­ранять лидерс­тво в таких усло­виях будет все слож­нее.

Но что же все‑таки взвол­новало инвесто­ров Nvidia? Казалось бы, надо радовать­ся: модель тре­ниру­ют на ее виде­окар­тах, а потом исполь­зуют на ее же виде­окар­тах. Да, карт теперь нуж­но мень­ше, но дос­тупность в таких слу­чаях вов­се не озна­чает, что пот­ребле­ние сни­зит­ся.

Я могу пред­ста­вить два вари­анта событий, которые потен­циаль­но чем‑то угро­жают рос­ту Nvidia или как минимум пуга­ют трей­деров.

Ва­риант пер­вый — «зима близ­ко». До сих пор мир искусс­твен­ного интеллек­та жил по еще более суровым законам при­роды, чем Вес­терос. Есть «лето» — ког­да откры­тия дела­ются одно за дру­гим, а день­ги текут рекой — и «зима» — ког­да ничего осо­бен­ного не про­исхо­дит и экспер­ты раз­бре­дают­ся кто куда в поис­ках луч­шей судь­бы. Зимы при этом длят­ся десяти­лети­ями, а лето нас­тупа­ет все­го на пару лет.

В нашем слу­чае это бы зна­чило, что сов­ремен­ные модели дос­тигли или поч­ти дос­тигли мак­симума сво­их воз­можнос­тей. Даль­ше рост в этой области будет обес­печен толь­ко новыми при­мене­ниями или уде­шев­лени­ем. И так — пока вычис­литель­ные ресур­сы не удас­тся вывес­ти на прин­ципи­аль­но дру­гой уро­вень, нап­ример с изоб­ретени­ем новой эле­мен­тарной базы.

Учи­тывая, что акции Nvidia и так силь­но перег­реты, даже неболь­шая веро­ятность такого раз­вития событий будет наносить удар по их цене. Но веро­ятность имен­но что неболь­шая — пока что нет никаких объ­ективных при­чин пред­вещать ско­рый выход на тех­нологи­чес­кое пла­то. Опти­миза­ция — это не финал, и впол­не мож­но ждать сле­дующе­го вит­ка, на котором повысят качес­тво.

Лю­бой, кто хоть нем­ного зна­ком с тех­нологи­ями, зна­ет, что нуж­да в вычис­лени­ях — это всег­да рас­тущий гра­фик. Сегод­ня ресур­сы подеше­вели бла­года­ря новым чипам или более хит­рым алго­рит­мам, а зав­тра счи­тать все рав­но понадо­бит­ся вдвое боль­ше. Даже если качес­тво рас­ти боль­ше не будет, дос­тупность прив­лечет новых пот­ребите­лей. Аппе­титы рын­ка тут прак­тичес­ки бес­конеч­ны.

Вто­рой опас­ный для ком­пании сце­нарий — это появ­ление на сце­не китай­ских про­изво­дите­лей GPU. Вот это как раз впол­не реаль­но и даже, навер­ное, неот­вра­тимо: кар­ты китай­ской ком­пании Moore Threads, осно­ван­ной быв­шим вице‑пре­зиден­том Nvidia, уже потихонь­ку про­дают­ся.

Карточка MTT X300 имеет 16 Гбайт GDDR6 и выдает 14,4 TFLOPS
Кар­точка MTT X300 име­ет 16 Гбайт GDDR6 и выда­ет 14,4 TFLOPS

Дру­гая груп­пка выход­цев из Nvidia соз­дала Biren Technology, которая в пер­вую оче­редь це­лит­ся как раз на рынок ИИ.

Эти пла­ны, прав­да, были и так извес­тны, и нап­рямую они никак не свя­заны с DeepSeek. Раз­ве что мож­но нем­ного пофан­тазиро­вать и пред­ста­вить, как сле­дующее поколе­ние китай­ских ней­росетей будет и соз­давать­ся, и работать на китай­ском железе. За DeepSeek пос­леду­ют новые раз­работ­ки, и тог­да уже их могут и не сде­лать дос­тупны­ми все­му миру. Толь­ко вот мир еще недос­таточ­но сошел с ума, что­бы заг­ружать в китай­ское обла­ко что‑то цен­ное вро­де кода раз­рабаты­ваемых про­дук­тов, тем более, что оно пер­вым же делом впе­чат­ляюще про­тек­ло.

В общем, точ­но пока мож­но ска­зать толь­ко одно: скуч­но не будет. Сам спи­сок учас­тни­ков гон­ки ИИ еще не впол­не опре­делил­ся, и нас, как всег­да, ждет мас­са инте­рес­ных вещей. И даже если сов­ремен­ные модели выш­ли на пла­то по качес­тву отве­тов, популя­риза­ция и новые при­мене­ния ИИ обес­печат нас новос­тями на годы впе­ред. Но об этом погово­рим уже в дру­гой раз.

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    0 комментариев
    Межтекстовые Отзывы
    Посмотреть все комментарии