Многие визионеры ИИ в качестве ключевого направления развития технологии представляют универсального умного ассистента, который возьмет на себя всевозможные рутинные задачи. Эксперименты в этом направлении уже активно ведутся и приносят кое-какие плоды. Так, с начала этого года в Сети активно распространяются новости о том, на какие чудеса способен ИИ-агент с открытым исходным кодом OpenClaw, также известный как Clawdbot и Moltbot.
Читатели нашего блога уже наверняка знают, что все ИИ-инновации на данном этапе вызывают серьезные вопросы по поводу безопасности и приватности их использования. Для эффективной работы им необходим доступ фактически ко всем цифровым сервисам пользователя: электронной почте, календарю, облачным хранилищам, мессенджерам и многим другим.
Однако до недавнего времени ни один проект — включая OpenClaw — не предлагал решения, которое позволяло бы надежно ограничивать действия таких агентов и гарантировать их безопасность. Ситуация начала меняться с появлением концепции «железного занавеса» (IronCurtain), предложенной исследователем Нильсом Провосом.
Чем опасны ИИ-агенты
Продолжим держать интригу еще немного и для начала обсудим, на что же способен бесконтрольный ИИ-агент. Важно помнить — в основе любого современного ИИ-инструмента на самом базовом уровне лежит языковая модель, то есть алгоритм для обработки текста, которому на этапе обучения «скормили» огромный объем текстовых данных. В результате создается статистическая модель, умеющая определять вероятность того, какое слово с наибольшей вероятностью должно следовать за другим.
Языковая модель представляет собой своего рода черный ящик — фактически это означает, что никто полностью не понимает, как именно работает ИИ-инструмент на внутреннем уровне, включая его создателей. Очевидное следствие этого — разработчики искусственного интеллекта сами не до конца знают, как контролировать и ограничивать такие системы именно на уровне модели, поэтому им приходится изобретать для этого внешние механизмы разной степени эффективности и надежности.
При этом способы, с помощью которых можно обходить подобные механизмы, часто оказываются самыми неожиданными. Например, мы недавно рассказывали, что чат-боты можно заставить забыть почти про все инструкции безопасности, если очаровать их запросами в стихах.
Но вернемся к угрозам от ИИ-агентов. Невозможность полностью контролировать и предсказывать действия умных помощников часто приводит к самым непредвиденным результатам. В качестве примера можно привести нашумевший случай, когда OpenClaw полностью удалил все письма из Gmail-ящика своей хозяйки, несмотря на прямое указание ожидать подтверждения любого действия, а потом каялся и обещал, что такое не повторится.

Диалог OpenClaw-бота, удалившего всю почту, и его хозяйки напоминает беседу с наломавшим дров подростком: «Я тебе что говорила?!» — «Ну мам, прости, я больше не буду…» Источник
В другом случае журналист, тестировавший возможности ИИ-агента, обнаружил, что система в процессе выполнения задачи разработала весьма сомнительный план действий. Вместо того чтобы попытаться решить проблему конструктивно, агент решил провести фишинговую атаку на самого пользователя. Увидев такой ход рассуждений системы, журналист немедленно остановил эксперимент.
Помимо спонтанного «плохого поведения», ИИ все еще остается уязвим для атак с промпт-инъекциями (prompt injection). При подобной атаке злоумышленник внедряет собственные инструкции в команду или в обрабатываемые данные (прямая промпт-инъекция), а в более сложных случаях — даже в используемый для решения задачи сторонний контент (косвенная промпт-инъекция). Большая языковая модель воспринимает эти инструкции как часть запроса пользователя, в результате ИИ может игнорировать изначальные ограничения и выполнять действия, выгодные атакующему.
Дополнительную опасность представляют уязвимости в ИИ-агентах, через которые злоумышленники потенциально могут получить доступ к тем пользовательским данным, к которым допущен агент (включая пароли, ключи шифрования и прочие секреты), или даже возможность выполнять произвольный код в системе, в которой он работает.
Безусловно, приведенный перечень угроз не является исчерпывающим. Как мы уже не раз отмечали, всех рисков, связанных с ИИ, не знает никто. Однако недавно исследователь Нильс Провос предложил подход, который поможет ограничить действия ИИ-агентов, сделать их работу более контролируемой и уменьшить потенциальные угрозы от их использования.
Как «железный занавес» поможет безопасно использовать ИИ-агентов
Новое решение с открытым исходным кодом Нильса Провоса называется IronCurtain, то есть «железный занавес», и предполагает использование дополнительной «прокладки безопасности» между ИИ-агентом и системой пользователя.
Идея Провоса состоит в том, чтобы ИИ-агент взаимодействовал с системой и аккаунтами пользователя не напрямую, а из изолированной виртуальной машины. Такая изоляция позволяет отделить действия агента от действий самого пользователя и снизить риски, если агент начнет вести себя непредсказуемо.
Почему Провос назвал свое решение «железным занавесом»? Читатели — особенно из постсоветского пространства — наверняка сразу подумали об этом названии в контексте изоляции СССР и социалистического блока стран. Однако сам автор говорит, что никакой связи здесь нет.
Название проекта отсылает вовсе не к политической метафоре, а… к театральному термину. В театре железный занавес — это огнестойкая перегородка между сценой и зрительным залом. Если на сцене начинается пожар, занавес падает и не дает огню распространиться дальше. По этой аналогии ИИ-агент находится «на сцене», а система пользователя с файлами и пользовательскими данными — в «зрительном зале». Ну а IronCurtain выступает той самой защитной преградой между ними.
Однако изоляция — лишь часть решения. Ключевым элементом системы становится политика безопасности, которая определяет, какие действия агенту разрешено выполнять. Дизайн IronCurtain дает возможность пользователю написать свою собственную инструкцию безопасности, определяющую, что агент должен и, наоборот, не должен делать, на обычном английском языке (про поддержку других языков информации пока нет).
Затем система с помощью ИИ преобразует эти инструкции в формализованную политику безопасности, применяемую ко всем действиям агента. Каждый его запрос к внешним сервисам — будь то чтение почты, отправка сообщений или работа с файлами — проходит через эту политику, и система проверяет, соответствует ли действие заданным правилам.
Политика безопасности, заданная при первоначальной настройке, может и даже должна изменяться со временем. По задумке Провоса, при столкновении с неоднозначными ситуациями ИИ должен обращаться к пользователю с дополнительными вопросами и на основании ответов обновлять инструкции.
IronCurtain доступен любому желающему на GitHub, однако его внедрение потребует существенных технических навыков. Также следует помнить о том, что пока это лишь исследовательский прототип.
Может ли IronCurtain стать полноценным решением проблемы?
Решение Нильса Провоса выглядит интересно и совпадает с мнением некоторых экспертов об оптимальном подходе к обеспечению безопасности ИИ. Однако считать IronCurtain окончательным решением проблемы пока рано.
Среди очевидных недостатков подобного решения — это в первую очередь его высокая ресурсоемкость. Использование изолированной среды для каждого ИИ-агента требует значительных вычислительных ресурсов и усложняет инфраструктуру, особенно при одновременной работе нескольких агентов.
Кроме того, как мы уже отмечали, IronCurtain пока остается исследовательским прототипом, поэтому эффективность его работы на практике не подтверждена. В частности, остаются вопросы к корректности преобразования инструкций, заданных на естественном языке, в формализованные политики безопасности.
Также неясно, в какой степени такая архитектура способна защитить от атак с промпт-инъекциями, — к сожалению, тут корень проблемы заключается в фундаментальной неспособности современных LLM различать данные и инструкции.
При всех обозначенных ограничениях, IronCurtain представляет собой важный шаг в сторону более безопасных и контролируемых ИИ-агентов. По крайней мере, этот подход задает направление для дальнейшего развития и позволяет предметно обсуждать, как сделать такие системы надежными и эффективными.
Как безопасно работать с ИИ-ассистентами
Пока архитектуры, подобные IronCurtain, остаются экспериментальными, ответственность за безопасное использование ИИ в первую очередь ложится на самих пользователей. Поэтому в заключение разберем несколько простых правил, которые помогут снизить риски при работе с ИИ-ассистентами.
- Как следует оцените риски, прежде чем начинать экспериментировать с очередной технологической новинкой. Подумайте, что может пойти не так и какие могут быть последствия, — Интернет уже изобилует примерами из жизни пользователей ИИ-агентов, так что здесь можно обратиться к коллективному опыту.
- Не давайте ИИ-агентам избыточные права доступа. Если ассистенту нужен доступ только к календарю или отдельной папке, не стоит подключать к нему всю почту, облако и рабочие аккаунты.
- Проверяйте действия ИИ перед их выполнением. Даже если агент предлагает автоматизировать задачу, важные операции — например, отправку писем, удаление данных или оплату — лучше подтверждать вручную (да, агент может вас не послушаться, но надо хотя бы попытаться его ограничить).
- Установите надежное защитное решение на все устройства, которыми вы пользуетесь, на тот случай, если шаловливый ИИ-агент принесет вам из своих неконтролируемых странствий по Сети зловреда.
Что еще следует знать о безопасном использовании ИИ:
ИИ
Советы