The AI Scientist: Полная автоматизация ИИ-исследований

Система The AI Scientist от Sakana AI продемонстрировала возможность полной автоматизации научного цикла в области машинного обучения.

Оглавление

Архитектура и методы исследования
Результаты и экспертная оценка
Технологические ограничения и риски

Автоматизация научных исследований перестает быть вспомогательным инструментом и переходит в фазу автономного цикла. Группа исследователей из Sakana AI совместно с учеными из Оксфорда и Университета Британской Колумбии представила систему The AI Scientist, способную самостоятельно проходить путь от генерации гипотезы до написания полноценной статьи. Как сообщает Nature, одна из работ, полностью подготовленная этим агентом, успешно преодолела порог рецензирования на воркшопе конференции ICLR.

Система представляет собой комплексный конвейер на базе современных LLM, который берет на себя итеративный поиск идей, написание кода, проведение экспериментов и визуализацию данных. В отличие от предыдущих попыток автоматизировать отдельные этапы, вроде подбора гиперпараметров или аннотирования литературы, решение от Sakana AI претендует на статус «end-to-end» платформы для машинного обучения.

Архитектура и методы исследования

В основе The AI Scientist лежит агентная структура, работающая в двух режимах. В шаблонном режиме система опирается на предоставленный человеком код, модифицируя его под новые задачи. Более амбициозный, «бесшаблонный» режим использует древовидный поиск (agentic tree search) для генерации кода с нуля, проведения абляционных исследований и автоматической отладки через итеративное взаимодействие с интерпретатором Python.

Для верификации результатов разработчики создали Automated Reviewer — модель-рецензент, обученную на гайдлайнах конференции NeurIPS. Тесты показали, что оценки ИИ-рецензента коррелируют с решениями людей-экспертов с точностью, сопоставимой с межавторским согласием в научном сообществе. Это позволяет системе самостоятельно отсеивать слабые идеи еще на этапе внутренних прогонов.

Результаты и экспертная оценка

Эксперимент по подаче работ на воркшоп ICBINB при ICLR 2025 показал жизнеспособность концепции: одна из трех статей получила средний балл 6.33, что выше проходного порога. Система продемонстрировала способность обнаруживать неожиданные отрицательные результаты и корректно оформлять их в формате LaTeX, включая цитирование через Semantic Scholar API.

Попытка упаковать научный метод в бесконечный цикл инференса впечатляет инженерным изяществом, но пока больше напоминает высокотехнологичный генератор шума. Мы видим триумф комбинаторики над интуицией: ИИ мастерски имитирует структуру статьи, но пасует перед концептуальной новизной. Рыночный риск здесь очевиден — девальвация рецензирования и замусоривание архивов публикациями, которые не несут реального знания. Без радикального решения проблемы галлюцинаций мы рискуем получить не ускорение прогресса, а инфляцию научного статуса.

Технологические ограничения и риски

Несмотря на успех, авторы признают наличие серьезных барьеров. Основная проблема — галлюцинации, проявляющиеся в некорректных ссылках на литературу и отсутствии глубокой методологической строгости. Текущая версия системы эффективна только в области машинного обучения, где эксперименты проводятся исключительно в вычислительной среде и не требуют физических лабораторий.

Исследование подчеркивает прямую зависимость качества «научных» работ от вычислительных мощностей и совершенства базовых моделей (GPT-4o, Claude 3.5 Sonnet). С ростом эффективности LLM возможности автономных агентов в науке будут расти экспоненциально, что ставит перед сообществом вопрос о необходимости новых этических стандартов и механизмов фильтрации контента, созданного без участия человека.