Оглавление
Австралийский стартап Isaacus представил Kanon 2 Embedder — специализированную языковую модель для юридических задач, которая демонстрирует впечатляющие результаты в сравнении с продуктами технологических гигантов.

Техническое превосходство
Согласно данным на 23 октября 2025 года, Kanon 2 Embedder занимает первое место в Massive Legal Embedding Benchmark (MLEB) — открытом бенчмарке для оценки качества юридического поиска. Модель показывает на 9% более высокую точность по сравнению с OpenAI Text Embedding 3 Large и на 6% лучшие результаты, чем Google Gemini Embedding, при этом работая более чем на 30% быстрее обеих моделей.
Основатель Isaacus Умар Батлер подчеркивает: «Качество результатов поиска определяет потолок для юридических RAG-приложений. Kanon 2 Embedder поднимает этот потолок значительно».
Значение для юридической индустрии
Модели эмбеддингов преобразуют документы и запросы в числовые представления, которые затем сравниваются для поиска релевантной информации. Эти технологии лежат в основе систем RAG (retrieval-augmented generation), широко используемых в юридическом технологическом секторе такими компаниями, как Harvey, LexisNexis и Relativity.
В юридических приложениях низкое качество эмбеддингов приводит к некачественным результатам поиска, что в свою очередь вызывает неточные ответы и увеличение количества галлюцинаций модели.
Новый стандарт для юридического поиска
MLEB позиционируется как наиболее комплексный и разнообразный бенчмарк для юридических эмбеддингов на сегодняшний день. Он охватывает шесть юрисдикций (США, Великобритания, ЕС, Австралия, Сингапур и Ирландия) и пять областей права (судебные дела, статуты, регламенты, контракты и академические работы).
Появление специализированных моделей для узких вертикалей — это естественная эволюция рынка ИИ. Юридическая сфера с её специфической терминологией и сложными контекстами идеально подходит для такого подхода. Интересно, что даже при меньшем размере модель показывает лучшую производительность — это говорит о качестве тренировочных данных и архитектурных решениях.
Kanon 2 Embedder основана на модели Kanon 2, обученной на миллионах законов, нормативных актов, судебных дел, контрактов и научных работ из 38 юрисдикций. При этом модель работает в 3,4 раза быстрее и значительно меньше по размеру, чем занявшая второе место Voyage 3 Large.
Безопасность данных и доступность
Isaacus уделяет особое внимание безопасности юридических данных. В отличие от многих конкурентов, компания не использует данные клиентов для тренировки моделей по умолчанию. Для клиентов с повышенными требованиями к безопасности скоро будут доступны изолированные контейнеры для развертывания моделей на AWS Marketplace и Microsoft Marketplace.
По материалам Hugging Face.
Оставить комментарий