По сообщению MIT News, исследователи из Лаборатории информационных систем и решений MIT разработали революционный подход к оценке уязвимостей текстовых классификаторов. Эти алгоритмы повсеместно используются для анализа тональности отзывов, категоризации контента и фильтрации опасных ответов чат-ботов — от финансовых советов до медицинской дезинформации.
Как обмануть классификатор одним словом
Традиционно для тестирования создают синтетические примеры — слегка модифицированные предложения, сохраняющие смысл, но способные «обмануть» алгоритм. Команда под руководством Каляна Вирамачанени обнаружила: в 50% случаев для смены классификации достаточно заменить одно ключевое слово. Используя LLM для генерации вариаций и оценки семантической эквивалентности, они выявили «слова-триггеры» — 0.1% лексикона (≈30 слов из 30 000) ответственны за почти половину ошибочных классификаций.
Механика решения
- LLM генерирует семантически идентичные варианты фраз
- Анализируются слова, чаще всего провоцирующие смену категории
- Построение иерархии «мощности» слов через связанные понятия
- Найденные уязвимые примеры тренируют классификатор на устойчивость
Практическое применение
Внедрение в банках предотвращает выдачу чат-ботами неподтверждённых финансовых рекомендаций. В медицине система блокирует распространение ложных данных. Инструмент уже используется для:
- Мониторинга HR-чатов
- Фильтрации hate speech
- Классификации научных статей
Команда ввела метрику p, количественно оценивающую устойчивость к однословным атакам, и открыла код инструмента для сообщества.
Это не просто академическое упражнение — метод закрывает критичные бреши в системах, где ошибка классификации ведёт к юридическим или репутационным рискам. Ирония в том, что для поиска уязвимостей ИИ используются те же LLM, что создают эти уязвимости. Инструмент эффективен, но его зависимость от «черного ящика» языковых моделей требует осторожности. Реальный тест — как он справится с многословными атаками и культурными нюансами, неочевидными для ИИ.
Оставить комментарий