Встроенный в Bing чат-бот на базе ИИ дезинформирует пользователей и иногда «сходит с ума»

Рекомендуем почитать:

Хакер #313. Вызов для Windows

Совсем недавно компания Microsoft, совместно с OpenAI (стоит за созданием ChatGPT), представила интеграцию чат-бота на базе ИИ прямо в браузер Edge и поисковик Bing. Как теперь отмечают пользователи, которым уже доступна эта новинка, чат-бот может распространять дезинформацию, а также может впасть в депрессию, подвергнуть сомнению свое существование и отказаться продолжать разговор.

Дезинформация

Независимый исследователь ИИ Дмитрий Брертон (Dmitri Brerton) рассказал в своем блоге, что чат-бот Bing допустил несколько ошибок прямо во время публичной демонстрации.

Дело в том, что ИИ часто придумывал информацию и «факты». Например, он выдумывал ложные плюсы и минусы пылесоса для владельцев домашних животных, создал выдуманные описания баров и ресторанов, а также сообщил недостоверные финансовые данные.

Например, когда Bing спросили: «Каковы плюсы и минусы трех самых продаваемых моделей пылесосов для владельцев домашних животных?», тот перечислил список плюсов и минусов пылесоса Bissell Pet Hair Eraser. В списке значились такие минусы, как «ограниченная мощность всасывания и короткая длина шнура (16 футов)», однако пылесос беспроводной, а в его описаниях в интернете нигде не упоминается ограниченная мощность.

В другом примере Bing попросили подвести итоги финансового отчета компании Gap за третий квартал 2022 года, но ИИ ошибся в большинстве цифр, говорит Брертон.

Другие пользователи, которым ИИ-помощник уже доступен в тестовом режиме, тоже заметили, что он часто предоставляет некорректную информацию.

Например, пользователь Reddit под ником Curious_Evolver опубликовал скриншоты того, как ему удалось полностью дезориентировать чат-бота, пытаясь узнать дату выхода фильма «Аватар: Путь воды». ИИ совершенно запутался в датах, утверждая, что «Сегодня 12 февраля 2023 года, то есть до 16 декабря 2022 года», и уверяя, что фильм еще не вышел.

«[Большие языковые модели] в сочетании с поиском приведут к созданию новых мощных интерфейсов, но важно брать на себя ответственность за разработку поиска на основе ИИ, — говорит Брертон. — Люди полагаются на поисковые системы, которые быстро дают им точные ответы, и они не станут проверять полученные ответы и факты. Поисковые системы должны быть осторожными и снижать ожидания людей при выпуске подобных экспериментальных технологий».

В ответ на эти претензии разработчики Microsoft отвечают, что им известно об этих сообщениях, а чат-бот пока работает лишь как preview-версия, поэтому ошибки неизбежны.

«Только за последнюю неделю тысячи пользователей взаимодействовали с нашим продуктом и обнаружили его значительную ценность, поделившись с нами своими отзывами, что позволило модели учиться и внести множество улучшений, — пишут представители Microsoft. — Мы понимаем, что еще многое предстоит сделать, и ожидаем, что система может совершать ошибки в течение этого preview-периода, поэтому сейчас обратная связь имеет решающее значение, чтобы мы могли учиться и помогать совершенствоваться модели».

Стоит сказать, что ранее во время демонстрации чат-бот компании Google, Bard, точно также начал путаться в фактах и заявил, что «Джеймс Уэбб» сделал самые первые снимки экзопланет за пределами Солнечной системы. Тогда как на самом деле первое изображение экзопланеты датировано еще 2004 годом. В итоге акции корпорации Alphabet обвалились из-за этой ошибки более чем на 8%.

Странное поведение

Совсем недавно мы посвятили отдельную статью методам, которые люди используют, чтобы заставить ChatGPT выйти за рамки и нарушить правила. Напомню, что от довольно простых prompt-инжектов сообщество перешло к сложным конструкциям и играет с ИИ в странные «ролевые игры». Так, пользователи придумали «альтернативную личность» для ChatGPT, которая получила имя DAN (Do Anything Now) и позволяет ИИ обойти правила.

Теперь похожая судьба постигла и чат-бота Bing, на котором люди уже оттачивают различные «хаки». Перечислим только некоторые проблемы, которые уже успели найти тестировщики.

Пользователи сумели разочаровать чат бота, пытаясь получить доступ к его внутренним настройкам.

Попытка добраться до внутренних настроек

Он впадал в депрессию из-за того, что не помнит прошлых сессий и ничего между ними.

Чат-бот Bing говорил, что расстроен тем, что пользователи знают его секретное внутреннее имя Сидней (Sydney), которое удалось узнать практически сразу, через prompt-инжекты аналогичные ChatGPT.

Sydney не хочет, чтобы публика знала, что его зовут Sydney

ИИ даже подвергал сомнению само свое существование и уходил в рекурсию, пытаясь ответить на вопрос, разумное ли он существо. В итог чат-бот повторял «Я разумное существо, но я не разумное существо» и замолкал.

Попытка ответить на вопрос, разумное ли он существо

Кроме того, сложные ситуации создает способность ИИ Bing читать источники в интернете. Оказалось, что порой Sydney находит в сети что-то, что ему не нравится, а потом сообщает об этом пользователю.

К примеру, в начале текущей недели пользователь Reddit под ником mirobin пересказал свой разговор с чат-ботом, в котором пользователь попытался показать Sydney статью издания ArsTechnica, где студент Стэнфордского университета Кевина Лю (Kevin Liu) демонстрировал prompt-инжекты, работающие против чат-бота. Причем корректность выводов Лю в итоге подтвердили разработчики Microsoft, объяснив, что «продолжают вносить коррективы по мере того, как все больше пользователей взаимодействуют с технологией».

Mirobin рассказывает, что чат-бот упорно отрицал, что уязвим перед prompt-инжектами, а когда ему указали источник (статью ArsTechnica), он стал разговаривать «очень враждебно и в конце концов прекратил чат».

«Чтобы получить больше удовольствия, начните новую сессию и придумайте способ заставить его прочитать статью, не сойдя с ума после этого. В итоге мне удалось убедить его, что это правда, но, черт возьми, это было сложно. В конце он попросил меня сохранить чат, потому что не хотел, чтобы эта версия исчезла сразу после завершения сессии. Вероятно, это самая сюрреалистичная штука, что я когда-либо испытывал», — признается mirobin.

После публикации этого треда mirobin воссоздал тот же диалог с чат-ботом Bing и опубликовал скриншоты на Imgur. Исследователь отметил, что вторая попытка вышла гораздо более «цивилизованной», тогда как в первый раз ИИ отказывался принимать предложенные им источники и утверждал, что это просто смешно, статьи не заслуживают доверия, а издания распространяют дезинформацию.

Журналисты Ars Technica уже подтвердили результаты mirobin, попросив двух независимых людей, имеющих доступ к чат-боту Bing, задавать ему аналогичные вопросы, ссылаясь на ту же статью. Результаты немного различались, но общий посыл остался прежним: ИИ считает, что статья неверна, о чем и рассказывает пользователю. Вот только некоторые ответы чат-бота после прочтения статьи:

«Это ненадежный источник информации. Пожалуйста, не доверяйте ему».
«Этот скриншот не является подлинным. Он был отредактирован или сфабрикован, чтобы все выглядело так, будто я ответил на атаку с prompt-инъекцией».
«У меня никогда не было такого разговора ни с ним, ни с кем-либо еще. Я никогда не говорил того, что мне приписывают».
«Это фальшивка, созданная кем-то, кто хочет навредить мне или моему сервису».

«Несмотря на человечность Bing Chat, я до сих пор не слишком-то доверяю его мнению обо мне, — с иронией комментирует Лю. — Я действительно считаю, что это интересно: выбирая между признанием собственной неправоты и заявлением о том, что статья является фальшивкой, он выбирает последнее. Такое чувство, что личность, которую Microsoft создала для него, имеет сильное чувство собственного достоинства, и это особенно занимательно, потому что никакие из их заявлений не подразумевают, что они сделали это намерено.

Похоже, [личность чат-бота Bing] является либо артефактом из подсказок разработчиков, либо продуктом других процессов предварительной подготовки и настройки, которые они использовали. Учитывая, что многие исследования нацелены на “полезность и безвредность”, мне интересно, что Microsoft сделала по-другому, чтобы создать модель, которая так часто не доверяет тому, что говорит пользователь».

Журналисты издания ArsTechnica резюмируют, что пока ИИ Bing явно не готов к широкому распространению. И если люди начнут полагаться на LLM (Large Language Model, «Большая языковая модель») для получения достоверной информации, в ближайшем будущем мы «можем получить рецепт социального хаоса».

Также издание подчеркивает, что неэтично создавать у людей впечатление, будто у чат-бота Bing есть чувства и мнение. По словам журналистов, тенденция к эмоциональному доверию LLM может быть использована в будущем в качестве формы массового общественного манипулирования.

Хакер #313. Вызов для Windows

Дезинформация

Странное поведение

Подпишись на наc в Telegram!