Оглавление

Исследователи из Массачусетского технологического института разработали новую систему на основе генеративного искусственного интеллекта, которая предсказывает результаты химических реакций с беспрецедентной точностью, строго соблюдая фундаментальные физические законы. Метод, опубликованный 20 августа в журнале Nature, решает ключевую проблему предыдущих подходов — нарушение законов сохранения массы и энергии.

Проблема «алхимии» в современных ИИ-моделях

Большинство существующих систем предсказания химических реакций, основанных на больших языковых моделях, работают по принципу «чёрного ящика»: они анализируют входные и выходные вещества, но игнорируют промежуточные стадии и физические ограничения. Как отмечает ведущий автор исследования Джунён Чжон, это напоминает скорее алхимию, чем науку: «Если вы не сохраняете токены (атомы), модель ИИ начинает создавать новые атомы или удалять существующие в реакции».

Технология FlowER: электроны под контролем

Новая система, названная FlowER (Flow matching for Electron Redistribution), использует матрицу связей электронов — метод, разработанный ещё в 1970-х годах химиком Иваром Уги. Этот подход позволяет явно отслеживать все электроны в реакции, гарантируя, что ни один из них не будет ошибочно добавлен или удалён в процессе.

Ключевые особенности системы:

  • Использует матричное представление электронов и связей
  • Ненулевые значения обозначают связи или неподелённые электронные пары
  • Нулевые значения указывают на отсутствие связи
  • Обеспечивает одновременное сохранение атомов и электронов

Это тот редкий случай, когда «старое доброе» из 1970-х встречается с современным ИИ — и результат превосходит ожидания. Вместо того чтобы пытаться заставить нейросети «выучить» законы физики с нуля, исследователи разумно использовали уже существующие химические представления. Ирония в том, что иногда для прорыва в ИИ нужно оглянуться на полвека назад и переосмыслить проверенные временем подходы.

Ограничения и перспективы

Хотя модель была обучена на данных более чем о миллионе химических реакций из базы данных Патентного ведомства США, она пока не охватывает некоторые металлы и виды каталитических реакций. Система находится на ранней стадии развития, но уже показывает впечатляющие результаты:

  • Соответствует или превосходит существующие подходы в поиске стандартных механистических путей
  • Позволяет обобщать на ранее не встречавшиеся типы реакций
  • Открытый исходный код и данные на GitHub
  • Потенциально применима в медицинской химии, материаловедении и электрохимических системах

Как отмечает старший автор исследования Коннор Коли, уникальность подхода в том, что «мы используем учебное понимание механизмов для генерации этого набора данных, но привязываем реагенты и продукты общей реакции к экспериментально проверенным данным из патентной литературы».

Сообщает MIT News.