Оглавление

По сообщению MIT News, исследователи из Лаборатории информационных систем и решений MIT разработали революционный подход к оценке уязвимостей текстовых классификаторов. Эти алгоритмы повсеместно используются для анализа тональности отзывов, категоризации контента и фильтрации опасных ответов чат-ботов — от финансовых советов до медицинской дезинформации.

Как обмануть классификатор одним словом

Традиционно для тестирования создают синтетические примеры — слегка модифицированные предложения, сохраняющие смысл, но способные «обмануть» алгоритм. Команда под руководством Каляна Вирамачанени обнаружила: в 50% случаев для смены классификации достаточно заменить одно ключевое слово. Используя LLM для генерации вариаций и оценки семантической эквивалентности, они выявили «слова-триггеры» — 0.1% лексикона (≈30 слов из 30 000) ответственны за почти половину ошибочных классификаций.

Механика решения

  • LLM генерирует семантически идентичные варианты фраз
  • Анализируются слова, чаще всего провоцирующие смену категории
  • Построение иерархии «мощности» слов через связанные понятия
  • Найденные уязвимые примеры тренируют классификатор на устойчивость

Практическое применение

Внедрение в банках предотвращает выдачу чат-ботами неподтверждённых финансовых рекомендаций. В медицине система блокирует распространение ложных данных. Инструмент уже используется для:

  • Мониторинга HR-чатов
  • Фильтрации hate speech
  • Классификации научных статей

Команда ввела метрику p, количественно оценивающую устойчивость к однословным атакам, и открыла код инструмента для сообщества.

Это не просто академическое упражнение — метод закрывает критичные бреши в системах, где ошибка классификации ведёт к юридическим или репутационным рискам. Ирония в том, что для поиска уязвимостей ИИ используются те же LLM, что создают эти уязвимости. Инструмент эффективен, но его зависимость от «черного ящика» языковых моделей требует осторожности. Реальный тест — как он справится с многословными атаками и культурными нюансами, неочевидными для ИИ.