Метод MIT для стресс-теста текстовых классификаторов ИИ

Исследователи MIT разработали метод тестирования текстовых классификаторов, выявляющий уязвимости через замену ключевых слов. Инструмент повышает надёжность ИИ в финансах, медицине и модерации.

Оглавление

Как обмануть классификатор одним словом
Механика решения
Практическое применение

По сообщению MIT News, исследователи из Лаборатории информационных систем и решений MIT разработали революционный подход к оценке уязвимостей текстовых классификаторов. Эти алгоритмы повсеместно используются для анализа тональности отзывов, категоризации контента и фильтрации опасных ответов чат-ботов — от финансовых советов до медицинской дезинформации.

Как обмануть классификатор одним словом

Традиционно для тестирования создают синтетические примеры — слегка модифицированные предложения, сохраняющие смысл, но способные «обмануть» алгоритм. Команда под руководством Каляна Вирамачанени обнаружила: в 50% случаев для смены классификации достаточно заменить одно ключевое слово. Используя LLM для генерации вариаций и оценки семантической эквивалентности, они выявили «слова-триггеры» — 0.1% лексикона (≈30 слов из 30 000) ответственны за почти половину ошибочных классификаций.

Механика решения

LLM генерирует семантически идентичные варианты фраз
Анализируются слова, чаще всего провоцирующие смену категории
Построение иерархии «мощности» слов через связанные понятия
Найденные уязвимые примеры тренируют классификатор на устойчивость

Практическое применение

Внедрение в банках предотвращает выдачу чат-ботами неподтверждённых финансовых рекомендаций. В медицине система блокирует распространение ложных данных. Инструмент уже используется для:

Мониторинга HR-чатов
Фильтрации hate speech
Классификации научных статей

Команда ввела метрику p, количественно оценивающую устойчивость к однословным атакам, и открыла код инструмента для сообщества.

Это не просто академическое упражнение — метод закрывает критичные бреши в системах, где ошибка классификации ведёт к юридическим или репутационным рискам. Ирония в том, что для поиска уязвимостей ИИ используются те же LLM, что создают эти уязвимости. Инструмент эффективен, но его зависимость от «черного ящика» языковых моделей требует осторожности. Реальный тест — как он справится с многословными атаками и культурными нюансами, неочевидными для ИИ.