Оглавление
SandboxAQ выпустила SAIR — самый большой в мире открытый датасет трехмерных структур белково-лигандных комплексов с экспериментальными данными о связывании. На платформе Hugging Face теперь доступно более 5 миллионов ИИ-сгенерированных высокоточных структур, каждая из которых сопряжена с проверенными данными о силе связывания.
Прорыв в структурной биологии
Создание SAIR преодолевает фундаментальное ограничение в ИИ-разработке лекарств — нехватку качественных тренировочных данных, связывающих молекулярную структуру с фармакологической активностью. Датасет доступен под лицензией CC BY 4.0 и может использоваться как в коммерческих, так и в исследовательских целях.
Традиционные методы получения 3D структур — рентгеноструктурный анализ и криоэлектронная микроскопия — требуют месяцев работы и значительных инвестиций. ИИ-модели вроде AlphaFold предсказывают лишь статические снимки, тогда как реальные белки динамичны и изменяют форму.
Это не просто очередной датасет — это стратегический актив, который может перевести значительную часть дорогостоящих лабораторных исследований в цифровую среду. Правда, остается вопрос: насколько ИИ-предсказанные структуры соответствуют реальному поведению белков в живом организме, где действуют сложные биохимические контексты.
Технологический масштаб проекта
Для создания SAIR потребовалось:
- 130,000 GPU-часов вычислений
- Кластер из 760 NVIDIA H100
- Инфраструктура NVIDIA DGX Cloud через Google Cloud Platform
Инженерам SandboxAQ и NVIDIA удалось задействовать более 95% мощностей GPU и сократить время генерации с предполагаемых трех месяцев до трех недель.
Валидация и надежность данных
Каждая предсказанная структура прошла проверку инструментом PoseBusters — отраслевым стандартом для валидации ИИ-структур в разработке лекарств. 97% структур успешно прошли все тесты на химическую корректность и физическую правдоподобность.
Детальные результаты сравнительного анализа различных методов предсказания аффинности доступны в научной публикации на bioRxiv.
Освещение «темного протеома»
Особую ценность SAIR представляет для исследования так называемого «темного протеома» — белков, для которых экспериментальные структуры отсутствуют. Более 40% белков в датасете не имеют структур в Protein Data Bank, что открывает возможности для изучения ранее недоступных мишеней.
Датасет также позволяет анализировать полифармакологию — как одна молекула может взаимодействовать с несколькими белками, что критично для предсказания побочных эффектов и перепрофилирования существующих препаратов.
Пишет Hugging Face.
Оставить комментарий