Оглавление

Сообщается о выпуске Massive Legal Embedding Benchmark (MLEB) — самого крупного, разнообразного и всеобъемлющего бенчмарка для моделей эмбеддингов юридических текстов.

Проблема существующих решений

При разработке Kanon 2 Embedder обнаружилось, что два существующих бенчмарка для юридических эмбеддингов — LegalBench-RAG и юридический раздел Massive Text Embedding Benchmark (MTEB) — либо низкого качества, либо недостаточно разнообразны.

LegalBench-RAG включает всего 4 набора данных, состоящих исключительно из контрактов, причем преимущественно американских. На практике же юридические специалисты ищут гораздо более широкий спектр документов: законодательные акты, нормативы, судебные решения и общую юридическую литературу.

Проблемы с MTEB

В юридическом разделе MTEB обнаружились две ключевые проблемы:

  • Множественные ошибки маркировки — наборы данных AILA Casedocs и AILA Statutes содержат много пар запрос-документ, которые совершенно не связаны между собой
  • Недостаток разнообразия — после исключения проблемных наборов остаются в основном датасеты по потребительским соглашениям, с минимальным охватом законодательства и полным отсутствием судебной практики

Авторы признали, что создавали датасеты с помощью «автоматизированной методологии» без привлечения юридических экспертов из-за финансовых и временных ограничений.

Что делает MLEB стандартом отрасли

Учитывая ограничения существующих решений, разработчики создали MLEB с четырьмя ключевыми целями:

  1. Высокое качество происхождения и маркировки данных
  2. Задачи обработки текста с реальной практической полезностью для специалистов legal tech
  3. Значительная сложность, требующая глубоких юридических знаний и навыков правового анализа
  4. Широкое представительство юрисдикций, областей права и типов юридических текстов

MLEB включает 10 различных наборов для оценки, охватывающих:

  • Различные уровни сложности (от лексического анализа до юридического мышления)
  • Типы задач (поиск, классификация без обучения, ответы на вопросы)
  • Юрисдикции (США, Великобритания, Австралия, Ирландия, Сингапур, ЕС)
  • Типы документов (судебные решения, законодательство, нормативы, контракты, литература)

Австралийский налоговый датасет

Один из самых ценных компонентов MLEB — Australian Tax Guidance Retrieval. Этот набор содержит 112 реальных налоговых вопросов от австралийских налогоплательщиков в паре с 105 соответствующими документами государственных руководств и политик.

Датасет создан на основе вопросов с форума Налогового управления Австралии, где налогоплательщики задают вопросы бухгалтерам и чиновникам. В большинстве случаев такие вопросы можно было ответить с помощью государственных материалов, которые налогоплательщики по каким-то причинам не смогли найти самостоятельно.

Особенность этого подхода в том, что вместо искусственно сконструированных запросов используются реальные, сложные вопросы от пользователей, которые уже доказали свою сложность тем, что традиционные поисковые системы не смогли найти на них ответы. Это именно тот тип задач, для которого и создаются модели эмбеддингов в реальном мире.

Структура бенчмарка

Из 10 наборов данных в MLEB 7 являются полностью новыми, созданными либо путем ручной маркировки экспертами, либо адаптацией существующих экспертно размеченных данных.

Вот обзор ключевых наборов данных MLEB:

  • Bar Exam QA — вопросы экзамена на адвоката в США в паре с соответствующей судебной практикой
  • SCALR — вопросы, представленные в Верховный суд США, с описаниями окончательных решений суда
  • Singaporean Judicial Keywords — судебные документы из Сингапура

На MLEB новая модель Kanon 2 Embedder показывает наивысшие результаты при одновременном сохранении самого низкого времени вывода среди всех коммерческих конкурентов, демонстрируя преимущества адаптации под конкретную предметную область.

По материалам Hugging Face.