OpenAI представила LifeSciBench для оценки ИИ в биологии

OpenAI запустила LifeSciBench — экспертный бенчмарк из 750 задач для оценки работы ИИ в области биомедицины и фармацевтики.

Оглавление

Структура и методология LifeSciBench
Реальные сценарии использования
Текущие результаты и технологические пробелы

Компания OpenAI анонсировала запуск LifeSciBench — специализированного бенчмарка, предназначенного для проверки способностей искусственного интеллекта в решении сложных задач из сферы биологии и фармацевтики. В отличие от привычных тестов на эрудицию, эта система оценивает умение моделей действовать в условиях неопределенности, с которыми ежедневно сталкиваются ученые в лабораториях.

Разработчики отмечают, что современные LLM часто демонстрируют блестящие результаты в ответах на изолированные вопросы, но пасуют перед реальными исследовательскими процессами. Жизненный цикл научной работы редко напоминает аккуратный тест; это скорее итеративный поиск ответов среди противоречивых данных, интерпретация неполных доказательств и постоянная корректировка гипотез.

Структура и методология LifeSciBench

В основу набора данных легли 750 задач, составленных и проверенных экспертами с докторскими степенями (Ph.D.) и опытом работы в биотехнологических гигантах. Тестирование охватывает семь ключевых рабочих процессов, включая анализ доказательств, проектирование экспериментов, научную коммуникацию и трансляционную медицину — тот самый путь препарата от лабораторной скамьи до клинических испытаний.

Особое внимание уделено сложности исполнения: около 79% заданий требуют многоступенчатого мышления, в среднем по четыре шага на задачу. Моделям приходится работать не только с текстом, но и с 1062 сопутствующими артефактами: PDF-отчетами, графиками, таблицами, химическими структурами и последовательностями генов. Это ставит ИИ в позицию полноценного ассистента, а не просто продвинутой поисковой системы.

Реальные сценарии использования

Чтобы понять, как это работает на практике, можно рассмотреть пример задачи по оценке готовности препарата к одобрению регулятором (FDA). Модели предлагается проанализировать пакет данных по генной терапии мышечной дистрофии Дюшенна и выявить слабые места, которые могут вызвать вопросы у экспертов. Типичный качественный ответ должен содержать критику методов вестерн-блоттинга или указание на некорректность использования внешних контрольных групп вместо рандомизированных исследований.

Для проверки точности ответов OpenAI внедрила детализированные рубрики оценки. В среднем на одну задачу приходится 25 критериев градации. Такой подход позволяет учитывать не только итоговый вердикт, но и качество аргументации: заметила ли модель ограничения анализа, учла ли биологические нюансы и насколько профессионально сформулировала выводы для коллег-ученых.

Создание узкоспециализированных бенчмарков — это признание того, что общие метрики вроде MMLU больше не отражают реальную полезность ИИ. Однако LifeSciBench, при всей своей масштабности, остается «песочницей» со статичными файлами. Настоящий прорыв случится не тогда, когда модель правильно прокомментирует PDF-отчет, а когда она сможет вести непрерывный цикл гипотез в динамической среде, не теряя контекста после десятой итерации. Пока же мы видим лишь очень дорогую и качественную проверку на «профпригодность» в теории, а не в полевых условиях.

Текущие результаты и технологические пробелы

Первые тесты показывают, что индустрия движется в правильном направлении, но до полной автоматизации исследований еще далеко. Модель GPT-Rosalind продемонстрировала заметный прогресс по сравнению с предшественниками, улучшив показатель точного прохождения тестов с 25,7% до 36,1%. Наилучшие результаты ИИ показывает в синтезе информации и научной коммуникации, где требуется структурировать уже имеющиеся данные.

Однако существуют области, где алгоритмы по-прежнему спотыкаются:

Работа с визуальными данными: результативность падает почти вдвое при необходимости извлекать информацию из сложных диаграмм и схем.
Точные вычисления: в задачах, требующих выдачи конкретных последовательностей или числовых расчетов, точность остается критически низкой.
Проектирование: создание новых конструктов или оптимизация процессов пока дается моделям с трудом из-за жестких операционных ограничений.

В конечном счете, LifeSciBench подсвечивает важную деталь: ИИ может быть отличным собеседником и неплохим аналитиком, но в роли «цифрового биолога» он все еще склонен упускать критические детали. В 14% случаев модели получают частичные баллы за логику, но проваливают задачу целиком из-за одной неверной связки или игнорирования важного ограничения. Путь от понимания теории до практического вклада в открытие лекарств только начинается.