Сегодняшний ИИ умеет брать в руки виртуальную электродрель, ходить по сайтам, выкачивать данные и делать сложные логические выводы. Давай разберемся, что такое агенты и как работает режим Deep Research, почему размер не самое главное и как поднять собственного карманного исследователя, который найдет для тебя что угодно — без цензуры и ограничений.
Помнишь ChatGPT 3.5? Я еще застал. По современным меркам — простенькая модель невысокого качества, но в свое время это был прорыв. А помнишь, как уверенно галлюцинировала эта модель, с ходу соглашаясь с самыми бредовыми идеями и творчески их развивая? Это все оттого, что модель опиралась только на собственные «знания», которых у нее, конечно, много, но они очень сжатые.
Модель не могла дословно пересказать «Войну и мир», но могла быстро пробежаться по сюжету; это — сжатие. А про какой‑нибудь редкий фанфик модель и вовсе могла не знать ничего, но в процессе чата, если окно контекста уже забито предысторией, запросто могла начать «додумывать» недостающие знания. Это — галлюцинации.
А попросить модель посчитать число r в слове strawberry? Это классический тест, который классические авторегрессивные модели классическим образом проваливают за счет особенностей токенизатора. А попроси модель решить математическую задачу с рекурсией? Да хотя бы просто удалить из текста все сноски (цифры в конце предложений, после точки)? То, что ты получишь на выходе, тебя удивит.
Или уже нет. Потому что модель поймет, что от нее требуется, напрограммирует скрипт на каком‑нибудь Python или сгенерирует регулярное выражение, запустит, посчитает — и выдаст тебе корректный алгоритмический (то есть — предсказуемый, а не нагаллюцинированный) результат. Вот это — работа агента.
Точно так же, если ты спросишь современную модель о чем‑то, чего она не знает (или, скажем, о чем‑то, что случилось уже после точки data cut-off — то есть позднее самых свежих данных из датасета, на котором обучалась модель), тот же Gemini, Claude или ChatGPT может отбрехаться («извини, дорогой, тут не знаю» — как правило, в «быстрых» бесплатных вариантах) или же подумать, сформировать запрос и задействовать поисковый агент, который самостоятельно найдет в том же Google недостающие данные, откроет ссылки и передаст нейросети нужную информацию. Это — тоже агент.
Если по‑простому: инструменты — это то, чем модель может щелкать, как тумблерами (через механизм Tool Calling). Агент — это когда модель начинает щелкать ими в цикле, сама себя проверяя и поправляя. Модель может сама создать код (и запустить его), а может делегировать эту задачу агенту.
Агенты могут самостоятельно размножаться (spawn), что легко может привести (и постоянно приводит) к серьезным проблемам — но кого и когда это останавливало, если можно задать модели задачку, а дальше она сама? Впрочем, из простого чата Claude или ChatGPT бесконечный цикл размножения ты не запустишь — никому не интересно, чтобы ты сжег все серверные мощности за жалкую двадцатку в месяц.
Чаще всего про агенты ИИ говорят в контексте вайб‑кодинга. Кодинг меня интересует со знаком минус, поэтому пусть о нем напишут те, кто в этом понимает. Я же расскажу о том, чем пользуюсь сам, — функциях продвинутого исследования, Deep Research.
Deep Research под разными именами есть практически во всех популярных моделях, а не только в «большой четверке» (ChatGPT, Gemini, Claude, Grok), а сервис Perplexity и вовсе специализируется именно на этом.
Суть Deep Research как раз в том, что на основе запроса пользователя модель формулирует проблему, разбивает ее на шаги, а затем во множестве итераций (не буду с ходу утомлять тебя подробностями, расписывая по шагам действия вроде поиск — уточнение — самокоррекция, тем более что у каждой модели алгоритм свой) ищет в сети информацию, читает ее, уточняет план действий, снова ищет, снова уточняет — и так до тех пор, пока модель не получит требуемый результат с достаточной степенью достоверности.
На этом — как бы конец галлюцинаций; данные достоверны ровно настолько, насколько в сети есть об этом информация (ну и модель, конечно же, подключает свои «мозги», чтобы отфильтровать явный бред).
Как на самом деле работает Deep Research
Здесь нужно немного сбить градус пафоса. Deep Research — это алгоритм, причем довольно сложный; уровень галлюцинаций там сводится к минимуму, и вместо «я придумал» будет в крайнем случае «я так вижу» (однако «видеть» модели могут ох как по‑разному).
Продолжение доступно только участникам
Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».
Присоединяйся к сообществу «Xakep.ru»!
Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее
