Оглавление

По сообщению Google Research, поиск оптимальных последовательностей нуклеиновых кислот для медицинского применения до сих пор напоминал поиск иголки в стоге сена. Для небольшого функционального региона РНК существует более 2×10¹²⁰ возможных вариантов, что делает полный перебор невозможным.

Обзорное изображение исследования NucleoBench по дизайну ДНК и РНК с помощью ИИ

Проблема стандартизации в вычислительной биологии

Хотя ИИ-модели уже неплохо предсказывают свойства заданных последовательностей ДНК и РНК, алгоритмы генерации оптимальных последовательностей остаются слабо стандартизированными. Разные исследовательские группы используют различные методы и тестируют их на разных задачах, что затрудняет объективное сравнение.

Типичный процесс вычислительного дизайна нуклеиновых кислот включает:

  1. Генерация данных: сбор качественного набора данных последовательностей с желаемыми свойствами
  2. Обучение прогностической модели: тренировка нейросети для предсказания свойств по последовательности
  3. Генерация кандидатных последовательностей: ключевой этап дизайна с использованием алгоритмов оптимизации
  4. Валидация кандидатов: синтез и тестирование в лабораторных условиях
  5. Дообучение модели (опционально)
Схема рабочего процесса вычислительного проектирования ДНК и РНК

NucleoBench: комплексный бенчмарк для честного сравнения

В коллаборации с Move37 Labs исследователи создали NucleoBench — первый крупномасштабный стандартизированный бенчмарк для сравнения алгоритмов дизайна нуклеиновых кислот. Было проведено более 400 000 экспериментов в рамках 16 различных биологических задач:

  • Контроль экспрессии генов в определенных типах клеток (клетки печени, нейроны)
  • Максимизация связывания транскрипционных факторов
  • Улучшение физической доступности хроматина
  • Предсказание экспрессии генов из очень длинных DNA sequences с использованием крупномасштабных моделей like Enformer

Создание стандартизированного бенчмарка в такой сложной области как дизайн нуклеиновых кислот — это как наконец-то получить общую систему координат для картографов. До этого каждый исследователь чертил свои карты в разных проекциях, и сравнить их было практически невозможно. Особенно впечатляет масштаб — 400 тысяч экспериментов покрывают задачи от коротких последовательностей в 200 пар оснований до монструозных 196 тысяч, что требует принципиально разных вычислительных подходов.

AdaBeam: гибридный алгоритм, превосходящий существующие методы

На основе анализа от бенчмарка был разработан AdaBeam — гибридный адаптивный алгоритм поиска по лучу, который комбинирует наиболее эффективные элементы неупорядоченного поиска луча с AdaLead. Алгоритм поддерживает «beam» — коллекцию лучших кандидатных последовательностей — и жадно расширяет наиболее перспективных кандидатов.

AdaBeam превосходит существующие методы на 11 из 16 задач и масштабируется более эффективно к большим и сложным моделям, определяющим будущее ИИ в биологии. Все реализации алгоритмов сделаны свободно доступными на GitHub.

Этот прорыв особенно важен для разработки методов лечения следующего поколения, включая более точные CRISPR генные терапии и более стабильные и эффективные мРНК вакцины. Стандартизация подходов ускорит перевод мощных прогностических моделей в реальные терапевтические молекулы.