Оглавление

Биотехнологическая компания Metagenomi нашла способ значительно удешевить процесс генерации миллионов вариантов ферментов с помощью генеративного ИИ, сообщает AWS Machine Learning Blog.

Генеративный ИИ для белкового дизайна

Metagenomi, специализирующаяся на разработке терапевтических средств на основе CRISPR, использует генеративные языковые модели для белков (pLMs) для расширения естественного разнообразия ферментов. Компания применяет модель Progen2, обученную на известных ферментах из своей базы данных MGXdb, чтобы создавать синтетические варианты белков с улучшенными характеристиками.

Основная проблема таких вычислений — высокая стоимость, особенно при работе с большими моделями и необходимостью генерировать миллионы вариантов ферментов. Ранее компания использовала инстансы EC2 с GPU NVIDIA L40S, но перешла на более экономичное решение.

Миграция на AWS Inferentia

Команда Metagenomi реализовала модель Progen2 на инстансах EC2 Inf2 с процессорами AWS Inferentia. Этот переход позволил:

  • Снизить стоимость генерации белковых последовательностей на до 56%
  • Использовать Amazon EC2 Spot Instances для дополнительной экономии
  • Обеспечить высокую доступность вычислительных ресурсов

Для адаптации модели к новому оборудованию использовалась техника трассировки и бакетинга, которая оптимизирует производительность, запуская генерацию последовательностей на последовательно более крупных моделях.

Проверка точности

Переход на новую архитектуру требовал проверки качества генерируемых последовательностей. Команда сравнила perplexity (меру неопределенности модели) и длины последовательностей, сгенерированных на EC2 Inf2, с результатами на GPU NVIDIA.

Для тестирования были сгенерированы 1000 белковых последовательностей для каждого из 10 промптов, взятых из базы данных UniprotKB.

Диаграмма методологии сравнения реализаций AWS Inferentia и NVIDIA GPU
Источник: aws.amazon.com

Результаты показали, что последовательности, сгенерированные на обеих платформах, имеют схожие характеристики по длине и perplexity.

Диаграмма сравнения длин последовательностей и показателей перплексии между реализациями
Источник: aws.amazon.com

Масштабирование на AWS Batch

Для массовой генерации ферментов Metagenomi использует AWS Batch, который динамически выделяет оптимальные вычислительные ресурсы на базе Amazon EC2 Spot Instances. Рабочий процесс организован следующим образом:

  1. Пользователи отправляют задания на генерацию
  2. AWS Batch оркестрирует работу на инстансах inf2.xlarge
  3. Кастомные Docker-контейнеры хранятся в Amazon ECR
  4. Модели загружаются из Amazon S3
  5. Сгенерированные последовательности возвращаются для анализа

Переход с GPU на специализированные AI-чипы — это не просто экономия, а стратегическое преимущество в гонке за открытием новых терапевтических средств. Методология Metagenomi демонстрирует, как биотех-компании могут масштабировать дорогостоящие вычисления без компромиссов в качестве. Особенно впечатляет сохранение точности при 56% экономии — обычно в таких сценариях жертвуют либо скоростью, либо качеством.

Этот подход позволяет Metagenomi массово генерировать варианты ферментов для последующего скрининга и инженерной доработки, ускоряя процесс разработки потенциально лечебных терапевтических средств.