Google DeepMind представляет новый подход к защите искусственного интеллекта от уязвимостей, которые давно беспокоят разработчиков. Одна из таких уязвимостей, известная как «внедрение указания», стала особенно актуальной с появлением популярных чат-ботов в 2022 году. Множество попыток решить эту проблему не привели к надежным результатам. Но, возможно, теперь ученые нашли прорывное решение.
Новый подход называется CaMeL (CApabilities for MachinE Learning). Он предлагает отказаться от стратегии самоконтроля моделей искусственного интеллекта. Вместо этого CaMeL создает четкие границы между командами пользователей и потенциально вредоносным контентом, рассматривая языковые модели как ненадежные компоненты в рамках безопасной программной среды.
Принципы защиты программного обеспечения и идеи контроля потока данных, контроля доступа и контроля информационного потока, разработанные в течение десятилетий, применяются в дизайне CaMeL. Это позволяет адаптировать многолетний опыт в области инженерии безопасности к особенностям моделей машинного обучения на языке.
Новая статья, представленная Google DeepMind, подробно описывает дизайн и принципы работы CaMeL. Этот подход может стать прорывом в борьбе с уязвимостями и атаками на искусственный интеллект. Читайте полный текст статьи, чтобы узнать больше о новом подходе к защите от уязвимостей и атак на искусственный интеллект.