RTEB — новый стандарт оценки поисковых моделей от Hugging Face

Hugging Face запустила RTEB — гибридный бенчмарк для оценки эмбеддинг-моделей с сочетанием открытых и приватных датасетов для измерения реальной способности к обобщению.

Оглавление

Проблемы современных бенчмарков
Ключевые недостатки существующих подходов
Архитектура RTEB
Ключевые особенности бенчмарка

Сообщество Hugging Face пишет о запуске бета-версии Retrieval Embedding Benchmark (RTEB) — нового бенчмарка для надежной оценки точности поиска эмбеддинг-моделей в реальных приложениях. Существующие подходы к оценке часто не справляются с измерением истинной способности моделей к обобщению, в то время как RTEB решает эту проблему с помощью гибридной стратегии использования открытых и приватных наборов данных.

Проблемы современных бенчмарков

Производительность многих AI-приложений — от RAG-систем и агентов до рекомендательных сервисов — фундаментально ограничена качеством поиска и извлечения информации. Текущий стандарт оценки часто полагается на «zero-shot» производительность моделей на публичных бенчмарках, что в лучшем случае является приблизительной оценкой их реальных возможностей.

Разрыв в производительности между публичными и закрытыми наборами данных — Источник: huggingface.co

Когда модели многократно тестируются на одних и тех же публичных наборах данных, возникает разрыв между их заявленными показателями и фактической производительностью на новых, ранее невиданных данных.

Ключевые недостатки существующих подходов

Проблема обобщения — экосистема бенчмарков непреднамеренно поощряет «обучение под тест». Когда источники обучающих данных пересекаются с оценочными наборами, показатели модели могут быть завышены
Несоответствие реальным приложениям — многие бенчмарки плохо согласуются с корпоративными сценариями использования. Они часто полагаются на академические наборы данных или задачи поиска, производные от QA-датасетов

Диаграмма сравнения zero-shot производительности моделей в бенчмарке MTEB — Источник: huggingface.co

Архитектура RTEB

RTEB реализует гибридную стратегию для борьбы с переобучением на бенчмарки:

Открытые наборы данных — корпус, запросы и метки релевантности полностью публичны
Приватные наборы данных — эти данные остаются закрытыми, а оценка проводится сопровождающим MTEB для обеспечения беспристрастности

Гибридный подход RTEB — это долгожданное решение проблемы «бенчмарк-дрифта», который стал настоящей чумой для сообщества машинного обучения. Теперь у нас наконец-то появится возможность отличать модели, которые действительно умеют обобщать, от тех, кто просто запомнил тестовые данные. Особенно ценно внимание к мультиязычности и enterprise-доменам — именно там эмбеддинги приносят реальную ценность.

Ключевые особенности бенчмарка

Мультиязычность — наборы данных охватывают 20 языков, от распространенных вроде английского или японского до редких вроде бенгальского или финского
Предметная ориентированность — включает датасеты из критически важных enterprise-доменов: право, здравоохранение, код и финансы
Эффективные размеры наборов — достаточно большие для значимости (не менее 1k документов и 50 запросов), но не чрезмерно
Поисково-ориентированная метрика — основная метрика лидерборда: NDCG@10, золотой стандарт для качества ранжирования результатов поиска

Полный список датасетов доступен на сайте. Разработчики планируют постоянно обновлять как открытую, так и закрытую части бенчмарка и активно призывают сообщество к участию.

Новости

Hugging Face представляет RTEB — новый стандарт оценки качества поисковых моделей

Проблемы современных бенчмарков

Ключевые недостатки существующих подходов

Архитектура RTEB

Ключевые особенности бенчмарка

Еще интереснее

Библиотека NeuralOperator теперь доступна в экосистеме PyTorch

Исследование IDC: как разрыв в эффективности ИИ тормозит бизнес

Исследователи MIT устранили фундаментальную проблему статистических оценок в пространственных данных

Microsoft выпустила фреймворк Agent Lightning для обучения ИИ-агентов без переписывания кода

Оставить комментарий