Оглавление

Компания Anthropic представила новый бенчмарк BioMysteryBench, призванный проверить способности больших языковых моделей в решении прикладных задач биоинформатики. Согласно отчету, опубликованному The Decoder, последняя модель Claude Mythos Preview демонстрирует результаты, сопоставимые с показателями живых специалистов, обладающих экспертными знаниями в этой сложной междисциплинарной области.

Разработка собственного теста стала ответом на несовершенство существующих методик оценки, таких как MMLU-Pro или GPQA. По мнению инженеров Anthropic, популярные опросники проверяют лишь эрудицию, но пасуют перед реальной исследовательской практикой. В то же время симуляции лабораторных условий зачастую слишком стерильны и не учитывают «зашумленность» биологических данных, с которой ученые сталкиваются в ежедневной работе.

Анатомия BioMysteryBench: между данными и реальностью

Бенчмарк включает в себя 99 вопросов, охватывающих различные домены биоинформатики. Ключевая особенность теста заключается в том, что ответы базируются не на субъективных интерпретациях ученых, а на проверяемых свойствах данных или верифицированных метаданных. К каждому вопросу прилагался проверочный код на Python в формате Jupyter Notebook, доказывающий наличие искомого сигнала в наборе данных.

В ходе тестирования модели получали доступ к изолированному контейнеру с набором специализированных инструментов и подключением к базам данных NCBI и Ensembl. Типичная задача могла заключаться в определении типа органа по данным секвенирования РНК одиночных клеток или идентификации выключенного гена. Оценивался исключительно финальный результат, в то время как выбор методов анализа оставался на усмотрение искусственного интеллекта.

Для объективного сравнения Anthropic разделила задачи на две категории. К первой отнесли 76 проблем, которые смог решить хотя бы один из пяти приглашенных экспертов-людей. Остальные 23 задачи оказались не под силу ни одному специалисту. Примечательно, что на «решаемых» задачах модель Mythos Preview достигла точности 82,6%, тогда как более легкая версия Haiku 4.5 показала скромные 36,8%.

В сложных задачах успех случаен и невоспроизводим, что делает ИИ скорее азартным игроком, чем надежным лаборантом. Пока Anthropic празднует паритет с экспертами, индустрии стоит помнить, что биоинформатика — это не угадывание ответа, а доказательный путь, где «везение» модели может обернуться ценой человеческой жизни или миллиардными убытками в фармацевтике.

Стратегии успеха и скрытые уязвимости

Анализ поведения модели выявил любопытные закономерности в её работе. Claude выделяется способностью комбинировать огромный объем накопленных знаний с оперативным анализом текущих данных. В ситуациях неопределенности система склонна наслаивать несколько методов исследования друг на друга, выбирая тот ответ, к которому сходятся результаты разных подходов — своего рода внутренний консенсус алгоритма.

Однако детальная проверка на устойчивость результатов несколько охлаждает пыл оптимистов. При проведении пяти повторных попыток решения одной и той же задачи выяснилось, что в простых кейсах модель либо стабильно права, либо стабильно ошибается. В сложных же задачах успех часто достигался лишь в одном-двух случаях из пяти, что указывает скорее на удачное стечение обстоятельств при выборе пути анализа, чем на глубокое понимание сути процесса.

Данные Anthropic получили косвенное подтверждение в параллельном исследовании CompBioBench, проведенном фармацевтическими гигантами Genentech и Roche. Их независимый бенчмарк показал схожие результаты, подтверждая, что современные LLM действительно вплотную приблизились к экспертному уровню в биоинформатике. Ознакомиться с материалами BioMysteryBench теперь можно на платформе Hugging Face, где выложена предварительная версия набора данных.