Оглавление

SandboxAQ выпустила SAIR — самый большой в мире открытый датасет трехмерных структур белково-лигандных комплексов с экспериментальными данными о связывании. На платформе Hugging Face теперь доступно более 5 миллионов ИИ-сгенерированных высокоточных структур, каждая из которых сопряжена с проверенными данными о силе связывания.

Прорыв в структурной биологии

Создание SAIR преодолевает фундаментальное ограничение в ИИ-разработке лекарств — нехватку качественных тренировочных данных, связывающих молекулярную структуру с фармакологической активностью. Датасет доступен под лицензией CC BY 4.0 и может использоваться как в коммерческих, так и в исследовательских целях.

Традиционные методы получения 3D структур — рентгеноструктурный анализ и криоэлектронная микроскопия — требуют месяцев работы и значительных инвестиций. ИИ-модели вроде AlphaFold предсказывают лишь статические снимки, тогда как реальные белки динамичны и изменяют форму.

Это не просто очередной датасет — это стратегический актив, который может перевести значительную часть дорогостоящих лабораторных исследований в цифровую среду. Правда, остается вопрос: насколько ИИ-предсказанные структуры соответствуют реальному поведению белков в живом организме, где действуют сложные биохимические контексты.

Технологический масштаб проекта

Для создания SAIR потребовалось:

  • 130,000 GPU-часов вычислений
  • Кластер из 760 NVIDIA H100
  • Инфраструктура NVIDIA DGX Cloud через Google Cloud Platform

Инженерам SandboxAQ и NVIDIA удалось задействовать более 95% мощностей GPU и сократить время генерации с предполагаемых трех месяцев до трех недель.

Валидация и надежность данных

Каждая предсказанная структура прошла проверку инструментом PoseBusters — отраслевым стандартом для валидации ИИ-структур в разработке лекарств. 97% структур успешно прошли все тесты на химическую корректность и физическую правдоподобность.

Детальные результаты сравнительного анализа различных методов предсказания аффинности доступны в научной публикации на bioRxiv.

Освещение «темного протеома»

Особую ценность SAIR представляет для исследования так называемого «темного протеома» — белков, для которых экспериментальные структуры отсутствуют. Более 40% белков в датасете не имеют структур в Protein Data Bank, что открывает возможности для изучения ранее недоступных мишеней.

Датасет также позволяет анализировать полифармакологию — как одна молекула может взаимодействовать с несколькими белками, что критично для предсказания побочных эффектов и перепрофилирования существующих препаратов.

Пишет Hugging Face.