Спой­лер: ты уже поль­зуешь­ся ИИ‑аген­тами, даже если сам это­го еще не осоз­нал. Забудь про вре­мена, ког­да ней­росеть мог­ла толь­ко гал­люцини­ровать несущес­тву­ющи­ми фак­тами: теперь она прек­расно гал­люцини­рует фак­тами впол­не реаль­ными!

Се­год­няшний ИИ уме­ет брать в руки вир­туаль­ную элек­трод­рель, ходить по сай­там, выкачи­вать дан­ные и делать слож­ные логичес­кие выводы. Давай раз­берем­ся, что такое аген­ты и как работа­ет режим Deep Research, почему раз­мер не самое глав­ное и как под­нять собс­твен­ного кар­манно­го иссле­дова­теля, который най­дет для тебя что угод­но — без цен­зуры и огра­ниче­ний.

Пом­нишь ChatGPT 3.5? Я еще зас­тал. По сов­ремен­ным мер­кам — прос­тень­кая модель невысо­кого качес­тва, но в свое вре­мя это был про­рыв. А пом­нишь, как уве­рен­но гал­люцини­рова­ла эта модель, с ходу сог­лаша­ясь с самыми бре­довы­ми иде­ями и твор­чески их раз­вивая? Это все отто­го, что модель опи­ралась толь­ко на собс­твен­ные «зна­ния», которых у нее, конеч­но, мно­го, но они очень сжа­тые.

Мо­дель не мог­ла дос­ловно перес­казать «Вой­ну и мир», но мог­ла быс­тро про­бежать­ся по сюжету; это — сжа­тие. А про какой‑нибудь ред­кий фан­фик модель и вов­се мог­ла не знать ничего, но в про­цес­се чата, если окно кон­тек­ста уже забито пре­дыс­тори­ей, зап­росто мог­ла начать «додумы­вать» недос­тающие зна­ния. Это — гал­люцина­ции.

А поп­росить модель пос­читать чис­ло r в сло­ве strawberry? Это клас­сичес­кий тест, который клас­сичес­кие авто­рег­рессив­ные модели клас­сичес­ким обра­зом про­вали­вают за счет осо­бен­ностей токени­зато­ра. А поп­роси модель решить матема­тичес­кую задачу с рекур­сией? Да хотя бы прос­то уда­лить из тек­ста все снос­ки (циф­ры в кон­це пред­ложений, пос­ле точ­ки)? То, что ты получишь на выходе, тебя уди­вит.

Или уже нет. Потому что модель пой­мет, что от нее тре­бует­ся, нап­рограм­миру­ет скрипт на каком‑нибудь Python или сге­нери­рует регуляр­ное выраже­ние, запус­тит, пос­чита­ет — и выдаст тебе кор­рек­тный ал­горит­мичес­кий (то есть — пред­ска­зуемый, а не нагал­люцини­рован­ный) резуль­тат. Вот это — работа аген­та.

Точ­но так же, если ты спро­сишь сов­ремен­ную модель о чем‑то, чего она не зна­ет (или, ска­жем, о чем‑то, что слу­чилось уже пос­ле точ­ки data cut-off — то есть поз­днее самых све­жих дан­ных из датасе­та, на котором обу­чалась модель), тот же Gemini, Claude или ChatGPT может отбре­хать­ся («изви­ни, дорогой, тут не знаю» — как пра­вило, в «быс­трых» бес­плат­ных вари­антах) или же подумать, сфор­мировать зап­рос и задей­ство­вать поис­ковый агент, который самос­тоятель­но най­дет в том же Google недос­тающие дан­ные, откро­ет ссыл­ки и передаст ней­росети нуж­ную информа­цию. Это — тоже агент.

Ес­ли по‑прос­тому: инс­тру­мен­ты — это то, чем модель может щел­кать, как тум­бле­рами (через механизм Tool Calling). Агент — это ког­да модель начина­ет щел­кать ими в цик­ле, сама себя про­веряя и поп­равляя. Модель может сама соз­дать код (и запус­тить его), а может делеги­ровать эту задачу аген­ту.

Аген­ты могут самос­тоятель­но раз­мно­жать­ся (spawn), что лег­ко может при­вес­ти (и пос­тоян­но при­водит) к серь­езным проб­лемам — но кого и ког­да это оста­нав­ливало, если мож­но задать модели задач­ку, а даль­ше она сама? Впро­чем, из прос­того чата Claude или ChatGPT бес­конеч­ный цикл раз­мно­жения ты не запус­тишь — никому не инте­рес­но, что­бы ты сжег все сер­верные мощ­ности за жал­кую двад­цатку в месяц.

Ча­ще все­го про аген­ты ИИ говорят в кон­тек­сте вайб‑кодин­га. Кодинг меня инте­ресу­ет со зна­ком минус, поэто­му пусть о нем напишут те, кто в этом понима­ет. Я же рас­ска­жу о том, чем поль­зуюсь сам, — фун­кци­ях прод­винуто­го иссле­дова­ния, Deep Research.

Deep Research под раз­ными име­нами есть прак­тичес­ки во всех популяр­ных моделях, а не толь­ко в «боль­шой чет­верке» (ChatGPT, Gemini, Claude, Grok), а сер­вис Perplexity и вов­се спе­циали­зиру­ется имен­но на этом.

Суть Deep Research как раз в том, что на осно­ве зап­роса поль­зовате­ля модель фор­мулиру­ет проб­лему, раз­бива­ет ее на шаги, а затем во мно­жес­тве ите­раций (не буду с ходу утом­лять тебя под­робнос­тями, рас­писывая по шагам дей­ствия вро­де поиск — уточ­нение — самокор­рекция, тем более что у каж­дой модели алго­ритм свой) ищет в сети информа­цию, чита­ет ее, уточ­няет план дей­ствий, сно­ва ищет, сно­ва уточ­няет — и так до тех пор, пока модель не получит тре­буемый резуль­тат с дос­таточ­ной сте­пенью дос­товер­ности.

На этом — как бы конец гал­люцина­ций; дан­ные дос­товер­ны ров­но нас­толь­ко, нас­коль­ко в сети есть об этом информа­ция (ну и модель, конеч­но же, под­клю­чает свои «моз­ги», что­бы отфиль­тро­вать явный бред).

Как на самом деле работает Deep Research

Здесь нуж­но нем­ного сбить гра­дус пафоса. Deep Research — это алго­ритм, при­чем доволь­но слож­ный; уро­вень гал­люцина­ций там сво­дит­ся к миниму­му, и вмес­то «я при­думал» будет в край­нем слу­чае «я так вижу» (одна­ко «видеть» модели могут ох как по‑раз­ному).

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    7 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии